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欢迎 阅读 《Per1 语 言 人 门 》 第 六 版 ， 此 版 本 顺应 Perl 5.14 及 其 后 续 版 本 的 新 特性 而 更 
新 。 不 过 ， 如 果 你 还 在 用 Perl 5.8 的 话 ， 本 书 仍然 是 你 的 最 佳 选择 。 (话说 回来 ， 这 个 
版 本 已 经 发 布 了 好 些 年 头 了 ， 难 道 你 没 想 过 升级 ? ) 


假如 你 正在 寻找 用 30 到 45 小 时 就 能 掌握 Perl 语 言 编程 的 最 佳 方式 ， 那 么 你 已 经 找到 了 ! 
在 后 面 的 章节 里 ， 我 们 会 精心 安排 人 门 指引 ， 介 绍 这 个 在 互联 网 中 担负 重任 的 程序 语 
。 它 也 是 备 受 全 世界 系统 管理 员 、 网 络 黑 客 以 及 聪明 随 性 的 程序 员 所 青睐 的 编程 语 


到 Il 


我 们 不 可 能 只 花 几 小 时 就 把 Perl 的 金 部 知识 传授 纶 你， 会 这 人 么 保证 的 书 大 概 都 搬 了 一 点 
谎 。 相 对 地 ， 我 们 谨慎 甄选 了 Penl 中 完整 最 实 用 鬼 部 分 供 你 学 习 。 这 些 材料 足以 编写 
128 行 以 内 的 小 程序 ， 而 大 约 90% 的 三 程 岸 都 永 需 要 十 过 这 个 长 度 的 篇 幅 。 当 你 准备 继 
续 深 入 时 ， 建 议 阅读 《Intermediate Pe 丹 》 这 本 抽 ， 该 书 涵盖 了 许多 本 书 略 去 不 讲 的 
深入 部 分 。 此 外 我 们 还 会 纳入 许多 相关 的 知识 点 方便 读者 延伸 阅读 和 学 习 。 


实际 上 每 章 的 内 容 并 不 多 ， 我 们 把 它 控制 在 一 两 个 小 时 内 能 够 读 完 的 篇 幅 。 每 章 后 面 
都 附 有 若干 习题 ， 帮 助 你 巩 国 刚 学 到 的 知识 ， 在 附录 A 中 还 附 有 习题 解答 ， 供 你 比 对 参 
考 。 因 此 本 书 可 说 是 相当 适合 作为 “Perl 入 门 ”的 课堂 教材 来 使 用 。 我 们 对 此 有 第 一 手 
的 实践 经 验 ， 几 乎 所 有 内 容 都 是 逐 字 逐 句 从 我 们 的 “Learning Perl” 课 程 教学 中 芋 取 
出 来 的 ， 这 门 招 牌 课程 已 经 经 过 了 上 千 名 学 生 的 实践 检验 。 当 然 ， 除 了 课堂 教学 以 外 ， 
拿 来 自学 也 是 非常 不 错 的 。 


虽然 Per] 是 活生生 的 “Unix 工 具 箱 ”， 但 你 并 不 需要 成 为 Unix 大 师 ， 甚 至 也 不 必 精 通 


Unix 就 可 以 使 用 本 书 。 除 非特 别 注 明 ， 否 则 我 们 所 提 到 的 一 切 都 可 以 应 用 到 Windows 版 
本 的 ActivePerl (ActiveState 公 司 出 品 ) 以 及 许 许多 多 其 他 流行 的 Perl 版 本 上 。 


阅读 本 书 之 前 ， 虽 然 无 需 具备 任何 Perl 基 础 ， 但 我 们 还 是 圳 心 希 望 你 能 够 对 写 程序 的 
基本 概念 有 所 了 解 ， 像 变量 (variable) 、 循 环 〈loop) 、 子 程序 (subroutine) 和 数组 
(array) 以 及 最 重要 的 “用 你 最 熟悉 的 文本 编辑 器 来 编辑 源 代 码 ” 这 类 事情 。 我 们 不 
会 花 时 间 说 明 这 些 概念 。 有 些 人 平生 所 学 的 第 一 个 程序 语言 就 是 Perl， 并 因 学 习 本 书 而 
获得 成 功 。 我 们 很 高 兴 能 看 到 这 样 的 事例 ， 但 我 们 也 无 法 保证 每 个 人 都 能 取得 一 样 的 成 
功 。 


排版 约定 
本 书 使 用 以 下 的 字体 惯例 ， 


等 宽 字 (Constant width) 
用 于 方法 名 称 (method name) 、 国 数 名 称 (function name) 、 变 量 (variable) 、 
属性 (attribute) 以 及 程序 代码 范例 。 


等 宽 黑 体 字 (Constant width bold) 

用 于 表示 用 户 输入 的 内 容 。 
等 宽 斜 体 字 (Constant width italic) 

用 于 程序 代码 中 可 被 替换 的 项 目 〈 例 如 ， 矿 Jename， 表 示 应 该 将 它 替 换 成 实际 的 文 

件 名 ) 。 
斜体 字 (jitalic) 

用 于 正文 所 提 到 的 文件 名 称 、URL、 主 机 名 称 、 第 一 次 提 及 的 重要 词汇 以 及 命令 。 
脚注 
一 般 附 加 在 括号 之 内 ， 初 次 【也许 是 第 二 次 、 第 三 次 ) 阅读 本 书 时 应 该 略 过 。 有 一 
些 不 完全 正确 的 用 语 是 为 了 简化 说 明 ， 而 脚注 会 说 明 事 实 。 通 常 脚注 中 的 资料 是 高 
级 主题 ， 不 会 在 本 书 其 他 部 分 讨论 到 。 

中 括号 内 数字 〈[2]) 

用 于 每 项 习题 开头 ， 表 示 完 成 该 题目 大 致 需要 多 少 分 钟 。 当 然 这 是 我 们 非常 粗略 的 

估算 ， 大 抵 能 反映 题目 的 难度 和 复杂 度 。 该 数字 仅 供 参 考 。 


代码 范例 


本 书 的 使 命 是 帮助 你 解决 实际 问题 。 我 们 欢迎 你 复制 本 书 中 的 代码 ， 或 者 略 加 改动 移植 





到 你 的 项 目 代码 中 。 虽 然 手 工 键入 代码 也 不 失 为 一 种 练习 方式 ， 但 我 们 还 是 欢迎 你 直接 
到 Hitp:W/wwwiearning-perlcom 下 载 。 


基本 上 ， 你 不 用 事先 联络 我 们 就 可 以 使 用 本 书 所 提供 的 程序 代码 及 文件 ， 除 非 芋 大 量 复 ， 
制 。 举 例 来 说 ， 在 你 的 程序 中 ， 若 用 到 几 段 本 书 中 的 程序 代码 ， 不 需要 经 过 我 们 的 同 
意 ， 但 是 做 成 光盘 发 布 、 销 售 O”Reilly 书 中 的 例子 ， 则 必须 经 过 授权 。 回 答 别 人 的 问题 
时 ， 引 用 本 书 的 文字 和 程序 代码 ， 也 不 需要 经 过 我 们 的 同意 ， 但 在 你 的 产品 文件 中 ， 若 
大 量 加 入 本 书 的 文字 与 程序 代码 ， 则 必须 经 过 授权 。 


虽 非 必要 ， 但 我 们 会 十 分 感谢 你 在 引用 本 书 的 内 容 和 范例 时 提 到 出 处 。 完 整 的 信息 通常 
包括 书 名 、 作 者 、 出 版 商 及 ISBN 编 号 。 例 如 :，“Learning Perl，6th edition ，by RandalL. 
Schwartz，Tom Phoenix, and brian d foy. Copyright 2011 Randal L.Schwartz, brian d foy， 
and Tom Phoenix, 978-1-449-30358-7”。 如 果 你 的 情况 有 别 于 上 述 情形 ， 并 心 有 存 疑 的 
话 ， 请 给 我 们 来 人 permissions@oreilly.com。 


如 何 联系 我 们 


本 书 的 内 容 都 经 过 测试 ， 尽 管 我 们 做 了 最 大 的 努力 ， 但 错误 和 了 玻 忽 仍然 是 在 所 难免 的 。 
如 果 你 发 现 有 什么 错误 ， 或 者 是 对 将 来 的 版 本 有 什么 建议 ， 请 通过 下 面 的 地 址 告诉 我 
们 ; 


美国 ， 


OO"Reilly Media, Inc. 
1003 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 ， 


北京 市 西城 区 西直门 南大 街 2 号 成 锅 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 


本 书 的 网 页 上 列 出 了 勘误 、 示例 和 其 他 相关 信息 ， 可 以 在 以 下 的 页 面 进行 访问 : 
原文 书 

Http://www.oreity.comaycatalog/06369200184521 
中 文书 


PtpJUYWW.Oreilly.co1a-CWUpook.DPjip7?BDH1=978756417 33726 





如 果 想 要 发 表 关于 本 书 的 评论 或 询问 技术 问题 ， 请 发 送 邮件 到 : 
pookGguesytio11g@oreilly co 
关于 图 书 、 会 议 、 资 源 中 心 和 O"Reiliy 网 络 的 其 他 信息 ， 请 查看 我 们 的 网 站 : 


P1PD:AWW.Oreity co 


PttPWwWW.Oreitly.cora.cP 


本 书 的 历史 
为 了 满足 读者 的 好 奇 心 ，Randal 在 这 里 告诉 你 关于 这 本 书 的 来 历 : 


1991 年 我 跟 Larry Wall 写 完 第 一 本 《Perj 语 言 编程 (Programming PerD)》 之 后 ， 硅 谷 的 
Taos Mountain Software 公 司 跟 我 联络 ， 要 我 准备 一 些 培训 课程 ， 内 容 包 含 12 节 左右 的 课 
程 ， 并 训练 他 们 的 教师 继续 开课 。 我 就 按 约 写 了 这 个 课程 给 他 们 呈 1。 


在 课程 进行 了 三 四 次 之 后 1991 年底) ， 有 个 人 走 到 面前 跟 我 说 ， “不 眶 你 说 ， 我 真 的 
很 喜欢 《Perl 语 言 编程 》 这 本 书 ， 但 是 这 门 课 的 教材 更 容易 吸收 ， 你 真 的 应 该 写 一 本 像 
这 个 课程 的 书 。” 这 听 起 来 像 是 个 好 机 会 ， 所 以 我 开始 认真 地 考虑 这 个 点 子 。 


我 写 信 给 Tim O'Reilly， 附 上 了 一 份 企划 局。 其 中 以 我 提供 给 Taos 的 课程 纲要 为 基础 ， 
再 根据 课堂 上 的 观察 调整 并 修改 了 一 些 章节 。 这 可 能 是 有 史 以 来 我 的 企划 书 最 快 被 接受 
的 记录 一 一 我 在 15 分 钟 后 收 到 了 Tim 的 回信 : “我 们 一 直 在 等 待 你 的 第 二 本 书 。《Perl 语 
言 编程 》 太 热 销 了 。” 接 下 来 的 一 年 半 时 间 里 ， 我 就 努力 完成 了 第 一 版 的 《Perl 语 言 
门 》。 


在 那 段 时 间 里 ， 我 找到 在 硅谷 以 外 教授 Perl 的 机 会 入 23， 所 以 我 就 以 正在 编写 阶段 的 
《Per]l 语 言 人 门 》 为 蓝本 制作 了 一 套 课 程 。 我 为 许多 不 同 的 客户 教 课 (包括 我 的 主要 签 
约 人 Intel Oregon) ， 并 利用 上 课 所 得 到 的 反馈 进一步 微调 本 书 的 草稿 。 


注 1: 在 合约 中 ， 我 对 习题 保留 所 有 权 ， 我 希望 有 一 天 能 以 不 同方 式 来 使 用 它们 ， 比 如 说 我 以 
前 曾经 写 过 的 杂志 专栏 。 习 题 是 Taos 公司 的 课程 里 唯一 还 能 在 本 书 中 出 现 的 东西 。 

注 2: 我 与 Taos 公司 的 合约 有 和 杂 独特 的 条款 ， 因 此 不 能 在 硅谷 教授 类 似 的 课程 ， 我 也 遵守 了 此 
条 款 很 多 年 。 








本 
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第 一 版 在 1993 年 11 月 1 日 往 3 问 世 ， 销 售 空前 成 功 ， 甚 至 很 快 就 嫁 上 了 《Perl 语 言 
程 》 的 销量 。 


在 第 一 版 的 封底 上 这 么 写 着 ，“ 由 卓越 的 Perl 讲 师 所 著 ”。 事 后 证 明 这 是 正确 的 预言 。 
随后 的 几 个 月 里 ， 我 收 到 来 自 美 国 各 地 的 电子 邮件 ， 邀 请 我 到 他 们 那里 教 Perl。 接 下 来 
的 7 年 中 ， 我 的 公司 成 了 全 球 领 先 的 Perl 现 场 培训 公司 ， 我 个 人 的 飞行 里 程 数 也 毅 升 到 
了 百 万 。 之 后 互联 网 的 兴起 更 是 锦上添花 ， 许 多 站 长 都 采用 Perl 作 为 内 容 管理 、 交 互 式 
CGI 及 网 站 维护 的 语言 。 1 


我 跟 Stonehenge 的 首席 培训 师 兼 内 容 经 理 Tom Phoenix 密 切合 作 了 两 年 。 我 请 他 对 
“Llama” 课 程 做 实验 ， 把 某 些 东西 移 来 移 去 ， 再 打 散 一 些 内 容 。 当 他 带 着 我 们 认为 是 
最 好 的 修订 本 出 现时 ， 我 就 联络 O'Reilly， 说 :， “是 该 有 本 新 书 的 时 候 了 ! ”于 是 第 三 
版 就 这 么 诞生 了 。 


在 “小 骆驼 书 ” 第 三 版 问世 的 两 年 后 ， 我 和 Tom 决 定 把 一 些 “ 高 级 ” 的 课程 移出 来 成 为 
一 本 独立 的 、 专门 给 需要 写 “100 到 10 000 行 代码 ”的 人 看 的 书 ， 那 就 是 在 2003 年 完成 的 
“ 羊 驼 书 ”。 


不 过 ， 在 我 的 同事 brian d foy 从 海湾 战争 回来 之 后 ， 同 样 是 讲师 的 他 注意 到 了 ， 教 材 必 
须 进一步 适应 普通 学 生 的 需求 ， 因 此 这 两 本 书 都 应 该 适当 地 改写 。 于 是 他 对 O "Reilly 推 
销 这 个 想法 ， 希 望 在 Perl 6 完成 之 前 进行 “小 骆驼 书 ” 与 “ 羊 驼 书 ”的 最 后 一 次 改版 〈 但 
愿 如 此 ) 。 而 此 版 本 的 确 反 映 了 那些 变动 的 需求 。 我 很 少 需要 给 brian 什 么 建议 ， 他 一 向 
都 是 顶尖 的 作者 ， 在 写作 团队 里 面 他 给 人 的 感觉 就 像 尽责 的 英国 管家 。 


2007 年 12 月 18 日 ，“Perl5 擎 门人 (Perl 5 Porters) ”发 布 了 Perl 5.10， 一 个 标志 性 的 版 
本 ， 融 入 了 众多 新 特性 。 之 前 的 5.8 版 专注 于 Perl 的 基础 架构 改良 和 Unicode 支 持 。 而 最 新 
的 版 本 以 稳固 的 5.8 版 为 基础 ， 增 加 了 一 系列 畦 新 的 特性 ， 特 别 是 那些 取 自 正在 开发 中 的 
Perl 6 《尚未 发 布 ) 的 一 些 理念 。 其 中 某 些 特性 ， 诸 如 正则 表达 式 里 的 命名 捕获 ， 比 起 传 
统 做 法 来 要 好 很 多 ， 对 Perl 初 学 者 来 说 也 更 容易 掌握 。 我 们 未 曾 想 过 本 书 会 有 第 五 版 ， 
但 Perl 5.10 实 在 是 太 有 趣 了 ， 我 们 无 法 故 步 不 前 。 

此 后 ，Perl 一 直 处 于 稳定 的 持续 发 展 阶段 。 之 前 我 们 没有 机 会 更 新 本 书 内 容 到 Perl 5.12， 


因为 它 的 更 新 速度 实在 是 太 快 了 ， 我 们 没有 跟 上 。 而 现在 ， 我 们 非常 高 兴 地 引入 最 新 的 
Perl 5.14 的 内 容 ， 与 此 同时 ， 本 书 也 已 经 更 新 到 了 第 六 版 。 


注 3: 这 个 日 期 我 记得 很 清楚 ， 因 为 那 也 是 我 由 于 围绕 我 与 Intel 分 司 的 合约 的 一 些 跟 计 算 机 有 
关 的 活动 在 家 被 还 捕 的 上 日子， 后 来 我 被 判 有 罪 。 


新 版 更 新 


本 书 新 版 内 容 已 经 按照 最 新 的 Perl 5.14 作 了 相应 的 修订 ， 其 中 有 些 代 码 仅 限于 在 该 版 本 
的 Pen 中 运行 。 当 然 ， 在 讨论 Perl 5.14 的 特性 时 ， 我 们 会 在 行文 中 加 以 提示 说 明 。 对 于 那 
些 代码 片段 ， 我 们 也 一 律 用 特殊 的 use 语 句 加 以 区 别 ， 提 示 你 使 用 正确 的 版 本 ， 比 如 ; 


use 5.014;  ## 该 脚本 需要 Per1l 5.14 或 更 高 版 本 才能 正常 运行 


如 果 在 代码 范例 中 没有 看 到 use 5.014 (或 者 使 用 其 他 版 本 的 相似 语句 ) 的 话 ， 就 说 明 
这 段 代码 可 以 在 Perl 5.8 以 上 版 本 中 工作 。 要 查看 你 当前 所 用 的 Perl] 版 本 号 ， 可 以 在 命令 
行使 用 -v 选 项 查看 ; 


$ pexrl-v 


二 国生 全 全 一 部 分 我 们 将 要 谈 及 的 Perl 5.14 中 引入 的 新 特性 。 在 谈 到 这 些 新 特性 时 ， 我 们 
还 会 给 出 传统 的 实现 方式 供 你 对 比 参考 : 


。 我们 会 在 行文 中 涉及 Unicode 的 地 方 对 该 特性 作 一 些 说 明 。 如 果 你 从 未 接触 过 
Unicode， 不 妨 先 读 一 下 附录 C 和 人 入门 中 的 简要 介绍 。 不 过 这 块 硬骨头 迟早 是 要 螨 
的 ， 不 如 现在 就 去 读 一 下 。Unicode 的 概念 穿插 在 本 书 各 个 角落 ， 特 别 是 在 关于 标 
量 〈 第 二 章 ) 、 输 入 /输入 (第 五 章 ) 以 及 排序 〈 第 十 四 章 ) 的 音节。 


。 ”在 关于 正则 表达 式 的 一 章 中 ， 我 们 也 扩展 了 许多 内 容 ， 包括 Perl 5.14 当 中 处 理 
Unicode 的 case-folding 等 。 另 外 还 有 新 增 的 几 个 正则 表达 式 操 作 符 /a、 /Au 和 /1 等 。 
并 且 我 们 还 会 展示 通过 \p{} 和 \P{]} 匹 配 Unicod 属 性 的 新 式 用 法 。 

。 ”Perl 5.14 新 增 了 一 个 不 繁 改 原始 字符 串 的 替换 操作 符 〈 第 九 章 ) ， 由 此 可 以 写 出 壳 
辑 上 非常 自然 流畅 的 代码 。 


。 ”自从 Perl 5.10 以 来 ， 智 能 匹配 和 given-when 的 用 法 与 功能 都 已 经 出 现 了 一 些 变化 ， 
我 们 会 在 第 十 五 章 中 介绍 这 些 新 规则 。 | 
。 ”我 们 更 新 并 扩展 了 “Per]l 模 块 ” (第 十 一 章 ) 一 章 ， 补 充 了 一 些 最 新 的 动态 ， 包 括 


用 于 安装 Perl 模 块 的 零 配 置 命令 行 工 具 cpamm。 同时 我 们 还 增加 了 一 此 本纪 使 用 的 
代码 范例 。 


。 ” 某 些 之 前 放 在 附录 B 中 的 “高 级 但 没有 机 会 演示 的 ”特性 ， 现在 适时 地 移 到 相应 的 
正文 中 介绍 。 特 别 值得 注意 的 是 ， 有 关 双 箭头 => 的 内 容 已 经 移 到 介绍 哈 希 的 章节 
(第 六 章 ) 中 ， 有 关 sp1ice 的 内 容 则 移 到 介绍 列表 和 数组 的 章节 《第 三 章 ) 中 去 





致谢 
来 自 Randal 


我 想 要 感谢 Stonehenge 过 去 与 现在 的 讲师 们 (Joseph Hall、Tom Phoenix、Chip 
Salzenberg、brian d foy 与 Tad MecCjlellan) ， 谢 谢 他 们 愿意 每 周到 教室 授课 并 带 回 自己 的 
笔记 ， 注 明 哪 部 分 有 用 (以 及 没 用 ) ， 如 此 我 们 才能 精准 地 调整 本 书 内 容 。 我 要 特别 点 
名 Tom Phoenix， 我 的 合 著者 与 事业 伙伴 ， 他 花 了 大 量 时 间 改 进 Stonehenge 的 “Llamar 
课程 ， 也 为 本 书 注入 了 最 为 核心 的 原始 内 容 。 还 有 brain d foy， 他 在 第 四 版 中 担任 了 主 
要 的 写作 任务 ， 从 而 帮 有 我 完成 了 收 件 箱 中 无 数 的 待 办 事项 。 


此 外 ， 我 还 要 感谢 0'Reilly 的 每 一 个 人 ， 龙 其 是 富有 耐心 和 了 眼光 的 前 任 编辑 Aliison 
Randal (不 是 我 的 亲 威 ， 但 她 的 姓氏 拼 法 很 赞 ) ， 以 及 现任 编辑 Simon SELLaurent。 还 有 
Tim O'Reilly 本 人 ， 是 他 让 我 在 一 开始 就 有 了 写作 “小 骆驼 书 ” 与 “大 骆驼 书 ” 这 两 本 
书 的 机 会 。 


我 由 衷 感谢 过 去 购买 本 书 的 上 千 名 读者 ， 这 些 钱 让 我 免 于 流浪 街头 与 夜 宿 四 牢 ， 感 谢 我 
班 上 的 学 生 ， 他 们 把 我 训练 成 为 一 名 更 好 的 讲师 ， 还 有 “财富 一 千 《Fortune 1000) “ 
上 大 排 长 龙 、 在 过 去 选 购 我 们 的 课程 、 未 来 也 会 继续 捧场 的 客户 们 。 


ww 我 得 特别 感谢 Lyle 与 Jack， 你 们 教会 了 我 几乎 所 有 关于 写作 的 知识 ， 我 永 
会 忘记 你 们 。 


来 自 Tom ， 

我 必须 附和 Randal 对 OReilly 的 每 个 人 致 上 的 谢意 。 在 第 三 版 的 时 候 ， 我 们 的 编辑 是 
Linda Mui， 她 细心 地 指出 书 中 过 火 的 玩笑 和 脚注 ， 当 然 留 下 来 的 那些 也 不 是 她 的 错 。 她 
与 Randal 在 整个 写作 过 程 中 不 断 指 导 我 ， 我 非常 感激 。 第 五 版 的 编辑 是 Allison Randal， 
现在 则 由 Simon StLaurent 担 任 我 们 新 版 图 书 的 编辑 。 在 此 ， 我 要 向 两 位 表示 由 圳 的 感 
谢 ， 感 谢 他 们 付出 的 无 可 替代 的 贡献 。 


另 一 些 跟 Randal 一 样 要 感谢 的 是 Stonehenge 的 讲师 们 ， 当 我 临时 更 新 课程 教材 以 堂 试 新 
的 教学 技巧 时 ， 你 们 几乎 不 兽 抱 怨 过 ， 在 教学 方法 上 ， 你 们 提出 了 许多 我 未 兽 想 过 的 主 


下 


已 ,。 


多 年 来 ， 我 在 俄勒冈 科学 与 工业 博物 馆 (Oregon Museum of Scienee and Industry， 
OMSI) 工作 ， 而 我 要 感谢 那里 的 人 们 ， 他 们 过 使 我 磨炼 自己 的 教学 技巧 ， 让 我 学 着 在 
每 个 活动 、 展 示 与 讲解 中 插入 一 一 两 个 笑话 。 








谢谢 新 闻 组 革 的 伙伴 们 ， 你 们 对 我 的 每 次 努力 都 给 予 了 赞赏 与 鼓励 。 如 同 以 往 ， 希 望 这 
些 对 各 位 有 所 帮助 。 


谢谢 我 的 众多 学 生 ， 在 我 尝试 变换 角度 来 解释 某 个 概念 的 时 候 ， 他 们 能 提出 疑问 〈 以 及 
一 脸 迷 惑 ) 。 和 希望 本 书 的 新 版 可 以 解除 剩 下 的 难题 。 


当然 ， 最 诚挚 的 感谢 特别 留 给 与 我 共同 创作 的 作者 ，Randal。 你 给 予 我 高 度 自 由 ， 让 我 
可 以 在 课堂 上 《以 及 书 中 ) 尝试 各 种 讲述 方法 ， 而 且 时 刻 敦 促 我 将 这 些 阐 述 写 人 书 中 。 
还 有 一 点 务必 要 和 Randal 说 : 我 被 你 深 深 感 动 ， 你 热心 劝 勉 他 人 ， 免 于 为 了 像 你 一 样 的 
官司 而 耗费 大 量 的 时 间 与 精力 ， 你 是 良好 的 典范 。 


谢谢 我 的 妻子 Jenna， 谢 谢 你 如 此 温柔 体贴 ， 为 生活 中 大 大 小 小 的 事 感谢 你 。 


来 自 brian 

我 必须 先 谢谢 Randali， 因 为 我 就 是 从 本 书 的 第 一 版 开始 学 习 Perl 的 。 而 在 1998 年 他 要 我 
进入 Stonehenge 开 始 讲课 时 ， 我 又 得 再 仔细 读 一 遍 ! 学 好 一 件 事 的 最 好 办 法 就 是 教 别 人 
学 。 在 那 之 后 ， 只 要 他 认为 我 该 学 的 ，Randal 都 会 指点 我 ， 不 管 是 Perl 还 是 其 他 方面 的 
事 ， 比 如 有 次 网 络 会 议 上 ， 他 决定 我 们 应 该 用 Smalitalk 来 展示 ， 不 要 用 Perl。 我 总 是 很 
惊讶 于 他 渊博 的 知识 。 一 开始 就 是 他 建议 我 写 与 Perl 有 关 的 东西 。 而 现在 ， 我 也 开始 协 
助 编写 本 书 了 。 谢 谢 你 Randal ， 能 参与 此 事 我 感到 非常 荣幸 。 


在 任职 于 Stonehenge 的 期 间 ， 跟 Tom Phoneix 见 面 的 时 间 恐 怕 还 不 到 两 是 期 ， 但 我 多 
年 来 都 是 用 他 的 教材 上 我 们 的 “Learning Perl” 课 程 。 他 的 版 本 后 来 成 为 本 书 的 第 三 
版 。 在 使 用 他 的 教材 时 ， 我 也 学 到 了 解释 某 些 概念 的 新 方式 ， 也 这 入 了 Perl 的 更 多 领 
域 。 


说 服 Randal 让 我 参与 “小 骆驼 书 ”的 改版 之 后 ， 我 负责 写 企划 书 、 维 护 全 书 大 纲 以 及 版 
本 控制 。 我 们 的 编辑 Allison Randal 不 但 在 这 些 事情 上 给 予 了 很 多 帮助 ， 在 收 到 我 发 出 的 
大 量 邮件 后 也 毫 无 怨言 。 在 Allison 转 向 其 他 工作 后 ， 我 们 的 新 任 编辑 Simon StLLaurent 也 , 
极其 负责 地 扮演 着 编辑 和 O"Reilly 公 司 内 部 人 员 的 双重 角色 ， 相 当 有 耐性 地 一 直 等 到 月 
相宜 人 之 时 ， 才 开始 向 我 提出 新 的 修改 意见 。 


来 自我 们 大 家 

感谢 所 有 审 校 人 员 ， 谢 谢 David H.Adler、Alan Haggai Alavi、Andy Armstrong、 
Dave Cross、Chris DeveIs、Paul Fenwick、Stephen B. Jenkins、Matthew 
.Musgrove、Jacinta Richardson、Steve PeterSs、Peter Scott、Wil Wheaton 和 天 arl 


Williamson。 感 谢 你 们 对 本 书 草 稿 所 提出 的 宝贵 意见 和 建议 。 





| 


了 


芭 
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感谢 我 们 的 众多 学 生 ， 这 些 年 来 让 我 们 知道 这 个 课程 的 哪些 内 容 需 要 调整 改善 。 正 是 因 
为 你 们 ， 我 们 今天 才 得 以 对 本 书 如 此 自豪 

感谢 诸多 Perl 推 广 组 (Perl Mongers) 在 我 们 访问 各 位 的 城市 时 给 我 们 宾至如归 的 招待 。 
期 待 着 与 你 们 再 次 相 见 。 


最 后 ， 向 我 们 的 朋友 Larry Wall 送 上 最 诚挚 的 谢意 ， 感 谢 你 与 大 家 慷慨 分 享 这 个 新 颖 又 强 
大 的 工具 〈 也 是 玩具 ) ， 让 我 们 能 够 更 快 、 更 简单 并 且 更 有 趣 地 完成 工作 。 





简介 夺 产 多 网 


Top>age.com 


欢迎 阅读 这 本 “小 骆驼 书 (Lilama book) ”! 


自 1993 年 以 来 ， 本 书 (第 六 版 ) 已 经 拥有 超过 50 万 名 的 读者 。 我 们 [0 写 这 本 书 的 时 候 
非常 开心 ， 所 以 最 起 码 的 ， 希 望 那些 广大 读者 们 也 能 够 喜欢 这 本 书 。 


问题 与 答案 

你 可 能 会 有 一 些 关 于 Perl 的 问题 ， 并 且 在 快速 浏览 过 本 书后 ， 还 可 能 会 提出 一 些 有 关 本 
书 的 问题 。 所 以 ， 我 们 打算 先 用 第 一 章 予 以 回答 。 至 于 那些 我 们 没有 解答 的 问题 ， 我 们 
会 告诉 你 如 何 获取 答案 。 


这 本 书 适 合 你 吗 ? 

如 果 你 的 个 性 和 我 们 差不多 ， 我 想 你 一 定 有 过 这 样 的 经 历 ， 书 一 定 要 买 到 手 ， 才 能 撕 开 

薄膜 纸 翻 间 ， 所 以 这 个 问题 好 像 没 什么 意义 。 在 我 们 完成 本 书 新 版 时 ，Borders 书 店 已 

经 基 掉 了 许多 店面 ， 其 他 图 书 零 售 商 也 好 不 到 哪里 去 。 但 也 许 你 正在 阅读 的 是 下 载 来 的 

电子 版 ， 或 者 是 Safari Books Online 上 的 网 页 版 ， 这 还 好 些 。 要 是 书 都 不 让 人 翻 ， 怎 
么 知道 它 合 不 合适 昵 ? 又 怎么 让 我 们 用 这 里 的 话 提醒 读者 呢 ? 

， 注 1， 明确 地 说 ， 本 书 第 一 版 的 作者 是 Randal L. Schwartz， 第 二 版 是 Randal L. Sechwartz 与 
Tom Christiansen 合 著 ， 第 三 版 是 Randal 与 Tom Phoenix 合 著 ， 而 现在 是 Randal、Tom 
PhoeniX 与 brain d foy 三 个 人 一 起 合 著 。 因 此 ， 本 书 提 及 的 “我 们 ” 指 的 是 最 后 那 三 
位 。 现 在 ， 如 果 你 怀疑 我 们 如 何 能 在 卷首 就 说 “ 写 这 本 书 的 时 候 非常 开心 ”， 葵 案 其 实 
很 简单 : 我 们 写 书 的 方式 ， 是 从 最 后 章节 开始 ， 然 后 按照 各 自 的 节奏 由 后 往 前 推进 。 尽 

”上 管 听 起 来 很 奇怪 ， 但 老实 说 ， 当 我 们 写 完 索引 之 后 ， 琵 下 来 的 部 分 就 完全 不 成 问题 了 。 


这 不 是 一 本 参考 书 。 这 只 是 一 本 非常 初级 的 教授 Perl 基 础 的 教材 ， 用 里 面 的 知识 写 点 自 
己 用 的 小 程序 应 该 不 在 话 下 。 每 一 个 主题 都 不 会 深入 到 所 有 细节 ， 有 些 概念 会 贯穿 在 几 
个 章节 中 ， 结 合 相关 内 容 做 进一步 介绍 。 


我 们 希望 读者 至 少 能 有 一 点 基本 的 编程 概念 ， 并 且 确 实 是 出 于 实际 需要 来 学 Perl 语 言 
的 。 你 应 该 至 少 用 过 命令 行 终端 ， 编 辑 过 文件 ， 运 行 过 一 些 哪 怕 不 是 用 Perl 写 的 程序 。 
你 也 应 该 知道 变量 、 子 程序 等 相关 概念 ， 而 你 现在 要 做 的 就 是 看 看 Perl 是 如 何 做 的 。 


但 这 也 绝 不 是 说 如 果 你 从 未 接触 过 终端 程序 ， 或 者 从 来 没 写 过 一 行 代码 ， 就 一 定 会 东 然 
无 措 。 第 一 次 阅读 一 定 会 有 些 不 太 理 解 的 东西 ， 不 过 慢 慢 地 你 就 会 联系 起 来 融会 贯通 。 
用 过 这 本 书 的 初学 者 一 般 只 会 磁 到 些小 柳 小 绊 的 麻烦 ,其 实 关键 在 于 不 要 一 开始 就 担心 
那些 不 太 明和 据 的 东西 ， 只 管 专注 于 我 们 向 你 阐述 的 内 容 ， 以 后 你 慢 慢 地 就 会 明白 。 要 成 
为 经 验 丰富 的 程序 员 还 有 很 长 的 路 要 走 ， 迈 出 第 一 步 才 是 至 关 重 要 的 。 


而 且 ， 这 不 应 该 是 你 读 过 的 唯一 一 本 Perl 图 书 。 本 书 仅仅 是 一 份 入门 材 料 ， 无 法 包罗 
万 象 。 本 书 的 目的 是 帮助 你 跨 出 第 一 步 ， 走 对 路 。 接 下 来 再 读 我 们 的 其 他 书籍 ， 比 如 
《Intermediate Perl》 (在 写本 书 时 ， 第 二 版 即将 出 版 ) 以 及 更 为 高 级 的 《Mastering 
Perl》。 当 然 ， 完 整 而 全 面 的 Perl 参 考 还 非 《Programming Perl》 莫 属 ， 江 湖人 称 “ 大 
骆驼 书 (Camel book) ”。 


另外 需要 明确 的 一 点 是 ， 虽 然 本 书 谈 及 最 新 的 Perl 5.14， 但 对 老 版 本 来 讲 ， 绝 大 多 数 内 
容 都 是 适用 的 。 如 果 你 用 的 是 Perl 之 前 的 版 本 ， 也 丝毫 不 会 影响 学 习 Perl 的 基础 概念 。 我 
们 所 洱 盖 的 最 低 版 本 是 Perl 5.8， 即 便 如 此 这 也 是 十 年 前 就 已 发 布 的 版 本 ， 所 以 完全 不 必 
担心 。 


为 何 有 这 么 多 的 脚注 ? 

感谢 你 注意 到 了 ， 本 书 确实 有 很 多 脚注 。 如 果 你 觉得 讨厌 ， 直 接 忽略 好 了 。 因 为 Perl 语 
言 中 到 处 都 充斥 着 例外 ， 所 以 最 好 的 方式 就 是 补充 脚注 说 明 。 应 该 说 这 是 好 事 ， 现 实生 
活 中 不 也 到 处 充满 例外 么 。 


就 是 因为 有 这 些 例 外 ， 我 们 不 能 昧 着 良心 说 完 “fizzbin 操 作 符 可 用 来 对 hoozistaitc 变 
量 进 行 frobnicate 处 理 ” 后 却 不 加 上 脚注 说 明 例外 情况 考 3。 我 们 向 来 严谨 行事 忠于 事 
实 ， 所 以 无 法 容忍 省 略 脚注 不 表 。 不 过 要 是 你 略 过 这 些 脚 注 不 看 ， 多 少 也 可 以 算是 忠于 





注 2: 除了 当 你 趁 星期 二 停电 的 机 会 玩 fizzbin 的 时 候 【译注 : 美剧 《星际 迷航 》 中 ，fizzbin 是 
其 中 一 个 扑克 游戏 ， 有 很 多 奇怪 的 例外 规则 ， 比 如 周二 不 能 翻 开 第 二 张 牌 ) ; 或 者 是 在 
5.12 版 之 前 的 Perl 中 ， 在 某 个 定义 了 原型 的 子 程序 中 的 循环 块 内 使 用 use integer 编 译 命 
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事实 吧 (这 么 说 逻辑 上 确实 成 立 ， 很 有 意思 ) 。 一 般 来 说 ， 脚 注 都 是 些 额外 的 并 不 涉及 
核心 知识 的 说 明 。 


许多 例外 与 可 移植 性 有 关 。Perl 来 自 Unix 系 统 ， 而 且 目 前 仍 扎 根 于 Unix 中 ， 与 Unix 息 息 
相关 。 但 无 论 是 否 因为 在 Unix 以 外 的 系统 上 运行 造成 的 《或 是 别 的 什么 原因 ) ， 我 们 都 
会 尽力 呈现 可 能 出 现 的 意外 状况 。 我 们 希望 不 懂 Unix 的 读者 们 也 能 认为 这 是 一 本 相当 好 
的 Pen 入 门 书 〈 而 且 你 也 可 以 因此 而 免费 学 到 一 点 Unix 知 识 


其 他 例外 状况 则 与 所 谓 的 “80/20” 定 律 有 关 。 也 就 是 说 ，Perl 里 面 80% 的 功能 可 以 用 文 
档 中 20% 的 部 分 加 以 描述 ， 而 另外 20% 的 功能 却 需要 占据 其 他 80% 的 篇 幅 。 所 以 ， 为 了 保 
持 本 书 的 篇 幅 短 小 ， 我 们 在 正文 中 介绍 那些 简单 明了 的 东西 ， 把 深入 高 级 的 部 分 留 在 肢 
注 中 介绍 (脚注 采用 小 一 些 的 字体 ， 可 以 说 明 更 多 内 容 ) [ 吐 ?3。 不 看 脚注 读 完 本 书后 ， 
你 可 以 花 点 时 间 回 过 头 来 读 一 下 脚注 。 参 考 也 好 ， 好 奇 也 罢 ， 这 些 脚注 还 是 非常 有 趣 
的 ， 有 许多 好 玩 的 计算 机 笑话 。 四 


关于 习题 和 解答 ? 
每 章 结尾 都 备 有 若干 习题 ， 因 为 我 们 三 人 用 这 份 教材 教 过 上 千 名 学 生 诗 4， 实践 证 明 效 
果 不 错 。 所 以 我 们 精心 设计 了 这 些 习题 ， 让 你 有 机 会 体验 一 下 多 数 人 容易 犯 的 错误 。 


不 是 说 我 们 希望 你 犯错 ， 而 是 你 需要 这 样 的 机 会 。 大 部 分 错误 在 你 的 Perl 编 程 生涯 中 迟 
早 都 会 出 现 ， 所 以 不 如 提前 经 历 一 下 ， 好 有 所 准备 。 一 旦 有 过 前 车 之 鉴 ， 那 么 届时 完成 
实际 任务 时 ， 就 算 赶 进度 也 不 会 再 犯 相同 的 错误 了 。 如 果 做 习题 时 碰 到 困难 ， 也 不 必 担 
心 ， 随 时 都 可 以 查阅 附录 A 里 的 说 明 ， 我 们 会 对 习题 做 示范 解答 ， 并 提示 一 些 相关 的 内 
容 ， 比 如 其 中 易 犯 的 错误 等 。 当 你 做 完 习 题 后 ， 可 以 到 这 里 核对 一 下 答案 。 


在 你 努力 党 试 解决 问题 前 ， 请 尽量 不 要 偷 看 答案 。 通 过 自己 探寻 答案 而 完成 的 习题 ， 学 


习 效 果 要 比 直 接 看 答案 好 得 多 。 就 算 一 直 想 不 出 头绪 来 ， 也 不 必用 头 撞 墙 ， 先 跳 过 它 ， 
翻 到 下 一 章 好 了 ， 没 关系 的 。 


即便 你 没 犯 任何 错误 ， 在 做 完 习题 后 也 应 该 看 一 下 解答 。 有 些 细节 你 可 能 未 曾 注意 ， 
看 解说 或 许 能 让 你 眼睛 一 亮 。 


贡 


想 要 额外 练习 的 话 ， 可 以 翻 翻 《Learning Perl Student Workbook》 这 本 书 ， 它 针对 每 
个 章节 都 增补 了 许多 习题 。 


注 3: ， 我 们 直至 讨论 过 把 整 本 书 做 成 脚注 以 节省 页 数 ， 但 是 “脚注 的 脚注 ” 听 起 来 有 点 怪 。 


注 4: 当然 不 是 一 次 教 那么 多 。 
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习题 前 标的 数字 是 什么 意思 ? 
每 个 习题 之 前 都 会 有 个 数字 ， 是 以 方 括号 框 起 来 的 ， 看 起 来 像 这 样 : 
1. [2] 当 方 格 号 里 的 数字 2 出 现在 题目 前 桓 时 ， 表 示 什么 意思 ? 


这 个 数字 是 我 们 (非常 粗略 地 ) 估计 你 完成 这 部 分 练习 需要 花费 的 时 间 。 那 只 是 非常 粗 
略 的 估算 ， 所 以 如 果 你 已 经 全 部 完成 (包括 编写 、 测 试 和 调试 ) 却 只 用 了 一 半 的 时 间 ， 
或 者 伦 了 两 倍 时 间 还 没完 成 ， 都 不 要 太 惊 讶 。 不 过 就 算 你 真 的 被 难 倒 了 ， 我 们 也 不 会 告 
诉 别人 ， 你 的 答案 是 偷 看 附录 A 得 来 的 。 


如 果 我 是 Perl 讲 师 ? 

如 果 你 想 在 自己 的 课程 里 使 用 本 书 作 为 教材 (历年 来 都 有 不 少 人 这 么 做 ) ， 请 留意 我 
们 对 各 章 习 题 的 设计 ， 尽 量 让 大 部 分 学 生 在 45 分 钟 到 1 小 时 内 完成 ， 再 留 下 一 些 休息 时 
闻 。 某 些 章节 的 习题 需要 的 时 间 会 少 一 些 ， 某 些 章节 则 要 多 一 些 。 之 所 以 会 出 现 这 种 情 
况 ， 是 因为 填 完 方 括号 里 的 数字 后 ， 我 们 才 发 现 自己 竟然 不 太 会 做 加 法 (还 好 我 们 知道 
怎么 让 计算 机 帮 我 们 做 这 件 事 ) 。 


之 前 提 到 过 ， 我 们 还 有 一 本 辅导 用 书 《Learning Perl Student Workbook》， 它 针对 每 
个 章节 都 额外 增加 了 若干 习题 。 如 果 你 有 这 本 工具 书 的 第 四 版 的 话 ， 请 注意 调整 一 下 章 
节 顺 序 ， 这 次 新 版 我 们 新 增 了 一 章 ， 另 外 还 调整 了 部 分 章节 的 先后 次 序 。 


“Perl” 这 个 词 表 示 什 么 意思 ? 


Per 有 时 候 被 称 为 “实用 摘录 与 报表 语言 (Practical Extraction and Report Language) ”， 
但 也 会 被 称 作 “ 病 态 折 中 式 垃圾 列表 器 (Pathologically Eclectic Rubbish Lister) ”。 
除 此 之 外 ， 这 个 词 的 缩写 还 可 以 展开 为 其 他 不 同 的 名 称 来 诠释 。Per1l 是 个 沽 写字 
(backronym) 。 而 不 是 缩写 词 (acronym) ， 这 是 因为 Larry Wall， 也 就 是 Perl 的 缔造 
者 ， 是 先 想 出 要 用 这 个 词 ， 然 后 再 考虑 如 何 展 开 解释 的 。 要 争论 哪 种 全 名 才 是 正确 的 并 
无 太 大 意义 ， 无 论 哪 种 Larry 都 认可 。 


你 可 能 会 在 某 些 技术 文章 里 看 到 以 小 写 p 来 表示 “perl”。 一 般 说 来 ， 大 号 P 表 示 的 
“Perl” 指 的 是 程序 语言 ， 而 小 写 p 表 示 的 “perl” 指 的 是 实际 编译 并 运行 程序 的 解释 
器 。 按 照 惯例 ， 在 表示 命令 行程 序 时 我 们 会 以 这 样 的 格式 书写 ，perl。 


Larry 为 什么 要 创造 Perl? 
20 世 纪 80 年 代 中 期 ，Larry 想 要 为 类 似 新 闻 组 的 文件 体系 写 一 个 bug 【缺陷 ) 汇报 系统 ， 


当时 用 的 是 awk， 但 马上 发 现 awk 无 法 满足 他 的 需求 。 于 是 ， 作 为 一 名 以 懒惰 为 美德 的 程 
序 员 1，Larry 决 定 从 根本 上 解决 这 类 问题 ， 写 一 个 通用 的 多 用 途 工 具 ， 让 它 不 仅 能 解 
决 眼下 这 个 问题 ， 将 来 也 能 在 别 的 地 方 派 上 用 场 。 于 是 ， 有 


Larry 干 吗 不 用 其 他 语言 

世界 上 不 缺乏 程序 语言 ， 不 是 吗 ? 但 在 当时 ，Larry 却 找 不 到 任何 一 种 真正 符合 他 需要 的 
语言 。 如 果 时 下 某 种 语言 在 当年 就 能 够 出 现 的 话 ，Larry 或 许 就 会 直接 用 它 了 。 他 当时 需 
要 的 是 像 shell 或 awk 一 样 能 快速 编程 ， 又 具有 类 似 grep、cuf、sort、sed 等 高 级 工具 的 功 
能 星 9， 而 不 必 回 头 使 用 像 C 这 种 类 型 的 语言 。 


Perl 试 图 填补 低级 语言 (如 C、 C++ 或 汇编 语言 ) 和 高 级 语言 (如 shel1 编 程 ) 之 间 的 空 
白 。 低 级 语言 通常 既 难 写 又 丑陋 ， 但 是 运行 速度 很 快 而 且 不 受 限 制 。 不 管 在 哪 台 机 器 
上 ， 要 想 赢 过 写 得 好 的 低级 程序 的 运行 速度 ， 恐 怕 难 于 登 天 。 它 们 儿 乎 可 以 做 所 有 工 
作 。 而 高 级 语言 则 是 另 一 个 极端 ， 它 们 通常 速度 缓慢 、 难 写 又 丑陋 ， 并 且 限 制 重重 。 
如 果 系 统 上 不 提供 执行 某 些 必 要 功能 的 接口 ， 那 么 shell 程 序 会 有 很 多 工作 无 法 完成 。 而 
Perl 则 相当 容易 ， 几 乎 不 受 限 制 ， 速 度 又 很 快 ， 只 是 看 起 来 有 点 别 捏 


好 吧 ， 现 在 让 我 们 来 细 数 一 下 上 面 提 到 的 Perl 的 四 大 特点 。 


首先 ，Perl 很 容易 。 不 过 接 下 来 你 马上 会 发 现 ， 其 实 这 指 的 是 容易 使 用 。 学 习 Perl 并 不 

简单 。 如 果 你 会 开车 ， 你 一 定 是 花 了 好 几 个 星期 或 几 个 月 的 时 间 来 学 习 ， 最 后 开 起 来 才 

会 驾轻就熟 。 当 你 花 在 写 Perl 程 序 上 的 时 间 和 学 开车 的 时 间 一 样 长 时 ，Perl 对 你 而 言 就 
是 很 容易 的 东西 了 咕 71。 


Perl 几 乎 不 受 限 制 ， 几 乎 没什么 事 是 Perl 办 不 到 的 。 你 大 概 不 会 想 用 Perl 来 编写 中 断 一 微 
内 核 层 次 (interrupt-microkernel-level) 的 设备 驱动 程序 《尽管 已 经 有 人 这 人 么 做 了 ) ， 但 
一 般 人 用 来 处 理 日 党 开 事 的 程序 ， 从 临时 需要 完成 某 项 任务 的 小 程序 到 企 业 级 的 大 型 应 
用 程序 ， 都 很 适合 用 Perl 来 写 。 


Perl 的 速度 通常 很 快 。 这 是 因为 所 有 Perl 开 发 者 同时 也 都 是 Perl 用 户 ， 所 以 我 们 当然 都 项 





注 5: 我 们 说 Larry 懒 情 ， 并 不 是 说 他 的 坏话 ， 懒 惰 其 实 是 一 种 美德 。 手 推 车 是 由 晤 得 朱 西 的 
人 发 明 的 ， 书 写 是 由 辣 得 记忆 的 人 发 明 的 ，Perl 的 创造 者 也 是 册 人 ， 藻 不 发 明 一 个 新 语 
言 就 懒得 干 活 。 

注 6: 要 是 你 不 知道 这 些 是 什么 东西 ， 请 别 担 心 。 重 点 在 于 它们 是 Larry 当 时 手 上 能 够 用 的 Unix . 
工具 程序 ， 但 是 功能 不 够 强大 。 


注 7; 当然 我 们 并 不 希望 你 开车 时 碰 到 一 样 多 的 失灵 。 
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望 它 能 够 运作 如 飞 。 假 设 有 人 为 Perl 加 上 某 个 很 酷 的 功能 ， 可 同时 会 让 其 他 程序 变 慢 ， 
那么 Larry 几 平一 定 会 拒绝 加 入 这 项 新 功能 ， 直 到 找 出 让 它 变 快 的 解决 办 法 为 止 。 


Perl 代 码 有 点 难看 ， 这 倒是 事实 。Perl 的 标志 是 骆驼 ， 这 来 自 于 值得 尊敬 的 “大 骆驼 
书 ” ( 即 《Perl 语 言 编程 》) 的 封面 ， 这 本 “小 骆驼 书 ” (以 及 另 一 本 姐妹 书 ，“ 羊 驼 
书 ”) 算是 读书 的 表亲 。 骆 驼 长 得 也 有 点 丑陋 ， 但 它们 努力 工作 ， 哪 怕 在 严酷 环境 下 也 
一 样 不 辞 辛劳 。 骆 驼 能 在 种 种 不 利 的 条 件 下 帮 你 把 事情 搞定 ， 尽 管 它 长 相 丑 陋 ， 气 味 难 
闻 ， 偶 尔 冷 不 丁 还 会 对 你 吐 上 几 口 口水 。 怎 么 说 呢 ，Pen 有 时 候 确 实 有 点 像 它 。 


Perl 算 容易 ， 还 是 算 难 ? 局 

它 简单 好 用 ， 但 确实 不 太 好 学 。 当 然 ， 这 只 是 一 般 而 言 。 在 Larry 设 计 Perl 时 ， 他 必须 
做 出 许多 权衡 取舍 。 每 当 有 机 会 可 以 让 程序 员 用 起 来 无 比 痛快 但 让 初学 Perl 的 人 觉得 难 
以 理解 的 时 候 ， 他 几乎 总 是 站 在 程序 员 这 边 。 原 因 很 简单 ， 学 只 学 一 次 ， 用 却 是 一 辈子 
可 以 用 下 去 的 [ 往 81。Perl 有 不 少 简便 操作 的 写法 ， 可 以 让 程序 员 节 省 大 量 时 间 。 比 如 大 
部 分 函数 都 具有 加 认 行为 ， 而 这 种 默认 行为 也 是 绝 大 多 数 人 在 使 用 该 函数 时 想 要 采取 的 
操作 。 所 以 ， 像 下 面 这 样 的 Perl 代 码 其 实 随处 可 见 [ 竹 9 

While 《<>){ 


chomp; 
prTint join("\t"，(split/1:7)[0,2，1,5])， "nj 


要 是 不 用 Perl 的 默认 行为 与 简写 ， 那 么 上 面 这 段 代 码 的 大 小 可 能 会 增长 十 几 倍 ， 这 么 一 
来 ,阅读 与 编写 的 时 间 也 会 大 幅 增 加 。 并 且 需 要 用 到 更 多 变量 ， 从 而 使 得 维护 和 调试 也 
复杂 一 些 。 如 果 你 已 经 能 看 懂 一 点 Perl， 你 会 发 现 上 面 的 代码 里 其 实 根本 就 没有 变量 ， 
注意 ， 这 才 是 问题 的 关键 。 实 际 上 这 里 用 到 的 变量 都 是 以 默认 行为 来 工作 的 。 为 了 将 来 
写 起 来 方便 流畅 ， 我 们 得 先 投入 一 点 时 间 ， 学 习 一 下 默认 变量 的 使 用 规则 。 


其 实 ， 简 写 或 者 缩写 来 源 于 现实 生活 ， 比 如 大 家 在 英语 里 经 常会 看 到 缩写 ， 从 来 不 会 觉 
得 有 什么 不 有 要。 是 的 ，“willnot” 跟 “won'"t” 这 两 种 写法 的 本 质 意义 一 模 一 样 。 但 大 家 
都 会 说 “won't” ， 而 不 太 会 说 “willnot”。 一 来 因为 比较 省 时 间 ， 二 来 大 家 都 熟悉 这 


注 8: 如 果 你 每 周 或 每 个 月 只 花 几 分 钟 的 时 间 在 程序 设计 上 ， 容 易学 习 的 语言 会 比较 合 和 过， 固 
为 下 次 使 用 时 ， 你 可 能 就 忘 光 了 。Perl 是 为 每 天 至 少 花 20 分 钟 写 程序 〈 并 且 是 以 Perl 程 序 
为 主 ) 的 程序 员 设 计 的 。 

注 9: 在 这 里 我 们 无 法 详细 解 释 所 有 细节 ， 大 体 上 ， 这 有 段 程 序 会 从 文件 读 入 一 些 数据 ， 并 把 数 
据 从 原来 的 格式 转 成 另 一 种 格式 。 不 必 担 心 ， 程 序 里 用 到 的 所 有 功能 ， 本 书 部 将 会 逐一 
介绍 。 
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樟 的 模式 。 同 样 ，Perl 也 会 缩写 常用 的 “字句 ”， 把 许多 难 写 的 程序 浓缩 成 简洁 有 力 的 
“成 语 ”， 好 让 维护 人 员 能 够 快速 地 “ 听 说 ”Penl。 


一 旦 熟悉 Perl 之 后 ， 你 就 可 以 花 更 少时 间 去 摆弄 shell 的 引用 (或 C 语 言 的 声明 ) ， 有 更 多 
的 时 间 来 训 览 网 站 。 这 是 因为 Perl 能 让 你 事半功倍 。Perl 简 明 的 语法 让 你 能 够 〈 毫 不 费力 
地 ) 建立 很 酷 并 且 流 畅 自 然 的 解决 方案 ， 或 是 用 途 广 泛 的 工具 程序 。 由 于 Perl 既 跨 平 台 
又 随处 可 用 ， 所 以 这 次 实现 的 工具 可 以 在 下 次 的 任务 里 沿用 ， 节 约 出 来 的 时 间 让 你 多 做 
些 其 他 有 益 的 事情 ， 不 是 很 好 么 。 


Perl 是 非常 高 端的 语言 。 这 表示 Perl 代 码 的 密度 和 信息 量 也 相当 高 ，Perl 程 序 的 长 度 大 约 
是 等 效 C 程 序 的 30% 到 70 色 左右 。 随 之 而 来 ， 编 号、 阅读 、 调 试 和 维护 Perl 程 序 的 效率 也 
非常 高 。 哪 怕 只 写 过 一 点 程序 的 人 都 明白 ， 当 子 程序 小 到 能 够 放 进 一 个 屏幕 时 ， 编 写 时 
就 不 用 上 下 深 动 来 加 查看。 此 外 ， 婚 然 程序 里 的 bug 数 量 大 致 与 源 代码 长 度 成 正比 鞋 191 
(而 不 是 与 程序 的 功能 成 正比 ) ， 那 么 较 短 的 Perl 程 序 代码 平均 起 来 含有 bug 的 数量 也 会 
少 很 多 。 


像 其 他 任何 一 种 语言 一 样 ，Perl 也 能 写 出 叫 人 看 不 懂 的 程序 ， 就 好 比 它 是 “只 写 的 
(write-only) ”。 但 只 要 你 稍 加 用 心 ， 就 可 以 避免 这 项 常见 的 恶名 。 没 错 ，Per] 程 
序 对 门外汉 来 说 ， 看 起 来 可 能 像 CPAN 上 的 线路 噪声 ， 但 对 经 验 丰富 的 Perl 程 序 员 来 说 ， 
它 就 像 大 交响 乐团 的 总 谱 。 你 只 要 遵照 书 里 的 指引 ， 就 能 写 出 易于 阅读 且 易 于 维护 的 程 
序 ， 当 然 ， 用 这 些 程序 是 赢 不 了 戏 玩 Perl 代 码 大 赛 (Obfuscated Perl Contest) 的 。 


Perl 怎 么 会 这 么 流行 ? 

Larry 稍 加 测试 Perl， 并 在 各 处 略 作 改 进 后 ， 就 把 它 发 布 到 Usenet 的 读者 社 释 ， 也 就 是 -- 
般 所 谓 的 “网 络 (Net) ”。 这 和 群 散居 世界 各 处 的 〔 上 万 名 ) 用 户 给 了 Larry 许 多 及 时 反 
饶 ， 希 望 Perl 做 这 做 那 ， 而 其 中 有 许多 都 是 Larry 从 来 没 想 过 要 用 他 的 Perl 去 处 理 的 。 


可 结果 是 ，Perl 不 断 成 长 。 它 的 功能 变 多 了 ， 能 运行 它 的 平台 也 增加 了 。 当 年 这 个 只 能 
在 少数 几 种 Unix 系 统 上 运行 的 小 语言 ， 而 今 长 成 了 具有 上 千 页 在 线 自由 文档 、 成 打 书 
、 籍 、 数 个 主流 Usenet 新 闻 组 〈 以 及 成 堆 的 新 闻 组 与 邮件 列表 ) 、 新 闻 组 里 无 数 读者 ， 并 
且 时 下 近乎 所 有 系统 皆 可 使 用 的 版 本 。 当 然 ， 其 中 也 包括 这 本 “小 骆驼 书 ”。 


现在 的 Perl 发 展 得 怎么 样 了 ? 
Larry Wall 已 经 不 再 亲自 编写 所 有 Perl 核 心 代码 ， 但 他 仍然 会 指引 开发 方向 并 作 关键 性 
抉择 。 目 前 维护 Perl 的 是 一 个 热心 的 开发 者 团队 ， 我 们 称 之 为 “Perl 5 掌 门人 (Perl 5 


注 10: 要 是 程序 里 有 任何 一 段 代码 的 篇 幅 超 过 屏幕 显示 范围 ， 那 么 bug 数目 还 会 显著 上 升 。 


Porters) ”。 可 以 加 入 他 们 的 邮件 列表 <per15-porters@perl.org> 参 与 讨论 或 关注 最 新 动 
太 


YU 


在 我 们 写 下 这 段 文字 的 同时 (2011 年 3 月 ) ， 有 许多 事情 正 围绕 着 Perl 发 生 。 在 过 去 几 年 
里 ， 有 许 许多 多 的 人 投入 到 下 个 重要 版 本 Perl 6 的 开发 中 。 


简单 来 讲 ，Perl 6 是 一 门 完全 轩 新 的 语言 ， 甚 至 连 且 前 初步 的 实现 都 已 经 改名 为 
Rakudo。Perl 6 是 在 2000 年 的 时 候 发 起 的 ， 原 来 打算 要 取代 Perl $S， 但 随后 的 开发 时 起 时 
落 ， 进 展 缓慢 ， 一 度 处 于 低迷 状态 ， 而 与 此 同时 ，Perl 5.6，5.8， 甚 至 5.10 都 已 陆续 发 
布 面世 。 历 尽 各 种 困难 和 分 心 之 后 ，Perl 5 的 开发 又 再 度 活 跃 起 来 ， 而 Perl 6 渐渐 冷 了 下 
来 。 听 起 来 挺 讽 刺 的 ， 也 许 吧 。 





不 过 ， 近 年 来 Perl 5 的 开发 逐渐 恢复 ， 并 且 现 在 已 经 到 了 差不多 每 个 月 发 布 一 个 测试 
版 ， 每 年 发 布 一 个 核心 版 的 程度 。 本 书 之 前 一 版 仅仅 讨论 到 5.10， 没 有 机 会 覆盖 随后 发 
布 的 5.12， 这 多 少 有 些 令 人 抱 憾 。 不 过 现在 这 个 新 版 正好 是 Perl 5.14 发 布 之 时 所 作 ， 
还 算 欣 慰 ， 但 Perl 5 党 门人 已 经 在 的 鼓 Perl 5.16 了 。 


哪些 事情 最 适合 用 Perl 来 做 ? 
Perl 很 适合 在 三 分 钟 内 写 出 “虽然 难看 但 是 能 用 ”的 一 次 性 程序 ，Perl 也 很 适合 用 来 六 
“ 写 用 处 广泛 、 需 要 十 几 个 程序 员 花 三 年 时 间 才能 完成 的 大 型 程序 。 当 然 ， 你 会 发 现 大 部 
分 Perl 程 序 从 构思 到 完成 测试 ， 一 般 只 要 不 到 一 个 小 时 的 时 间 。 


Per] 擅 长 处 理 整体 来 说 “ 约 有 90% 与 文字 处 理 有 关 ，10% 与 其 他 事务 有 关 ” 的 问题 。 这 似 
乎 占 了 当前 编程 任务 需求 的 绝 大 部 分 。 在 理想 的 世界 里 ， 所 有 程序 员 都 会 每 一 种 语言 ， 
进行 任何 项 目 时 他 们 都 能 选择 最 适合 的 语言 。 但 绝 大 多 数 时 候 他 们 会 选择 Perl 入 1。 在 
Larry 创 造 Perl 的 那个 年 代 ， 有 关 Web 的 概念 甚至 还 没 从 Tim Berners-Lee 的 头脑 里 蹦 出 
来 ， 但 这 两 者 却 在 后 来 通过 网 络 走 到 了 一 起 。 有 人 说 Perl 在 20 世 纪 90 年 代 初 期 的 扩张 ， 
让 许多 信息 能 迅速 转换 成 HTML 格 式 的 文档 ， 从 而 推动 了 互联 网 的 入 勃 发 展 。 是 的 ， Perl 
确实 是 编写 小 型 CGI 脚本 《Web 服务器 调用 的 程序 ) 的 最 佳 语 言 。 直 到 现在 ， 还 有 许多 搞 
不 清楚 状况 的 人 会 提出 像 “CGI 不 就 是 Perl 吗 ? ”或 者 “除了 CGI 之 外 ，Perl 还 有 什么 用 
呢 ? ”这 样 的 问题 。 老 实 讲 ， 很 搞笑 。 


注 ]1:， 不 要 只 听 我 们 的 一 面 之 词 。 如 果 想 知道 Perl] 和 X 语 言 哪个 比较 好 ， 最 好 的 办 法 就 是 把 两 者 
都 学 会 ， 看 看 到 后 来 你 最 常用 的 是 哪个。 用 得 最 多 最 顺手 的 ， 自 然 就 是 最 适合 你 的 。 不 
管 怎样 ， 从 结果 上 来 讲 ， 学 过 X 语言 之 后 加 深 了 你 对 Perl 的 理解 〈 或 者 反 过 来 ) ， 那 也 
不 失 为 一 种 收获 ， 所 以 并 不 是 浪费 时 间 。 





加 


哪些 事情 不 适合 用 Perl 来 做 ? 

那么 ， 既 然 Perl 能 做 的 事情 这 么 多 ， 哪 些 事 不 适 谷 用 它 来 做 昵 ? 好 吧 ， 如 果 你 想 做 出 封 
闲 式 二 进 制 可 执行 文件 (opague binary) ， 请 不 要 使 用 Perl。 所 谓 的 “封闭 式 ”， 指 的 
是 取得 或 购 得 你 程序 的 人 无 法 从 程序 里 看 到 你 的 秘密 算法 ， 因 此 也 无 法 协助 你 维护 或 调 
试 。 当 你 把 Perl 程 序 给 某 人 时 ， 通 常 给 的 是 源 代码 ， 而 非 封 闲 式 二 进 制 可 执行 文件 。 


. 不过， 要 是 你 真 的 想 要 封闭 式 二 进 制 可 执行 文件 的 话 ， 我 们 必须 遗憾 地 告诉 你 ， 其 实 并 
没有 这 种 东西 。 只 要 有 人 能 安装 并 运行 你 的 程序 ， 他 就 能 将 它 还 原 成 各 种 程序 语言 的 源 
人 代码。 当然， 通过 这 种 方法 取得 的 代码 多 半 和 你 原来 的 不 同 ， 但 它 毕 竟 是 某 种 源 代码 。 
不 幸 的 是 ， 要 保护 你 的 秘密 算法 ， 真 正 的 办 法 只 有 一 种 ;聘用 足够 多 的 律师 。 他 们 能 写 
出 一 份 授权 条 款 ， 然 后 声明 “你 可 以 用 这 个 程序 做 这 件 事 ， 但 是 不 能 做 那 件 事 。 要 是 你 
违反 了 我 们 的 规定 ， 我 们 有 足够 多 的 律师 会 叫 你 后 悔 莫 及 。” 


如 何 取得 Perl? 


你 的 机 器 上 可 能 已 经 有 Perl1 了 。 至 少 ， 在 我 们 接触 过 的 机 器 上 都 找到 过 Perl。 许多 系统 
都 附带 Perl， 大 多 都 已 预先 安装 好 ， 也 有 需要 自己 安装 的 。 系 统管 理 员 一般 都 习惯 在 他 “ 
管理 的 每 台 服 务 器 上 安装 Perl。 不 过 话说 回来 ， 就 算 你 的 系统 没有 提供 Perl 安 装 包 ， 你 
总 还 是 可 以 从 别处 免费 下 载 得 到 。 一 般 各 种 Linux 或 者 *BSD 系 统 ， 包 括 Mac OS X 等 ， 
都 会 预 装 Perl。 另 外 还 有 些 公 司 会 提供 第 三 方 的 Perl 版 本 ， 比 如 ActiveState (PttPp:Wwww. 
activesfate.com) 就 为 某 些 平 台 ， 包 括 Windows， 提 供 预先 编译 好 的 版 本 。 另 外 ， 你 还 可 
以 下 载 Strawberry Perlfor Windows (Ptip:/www.strawberryperlLcom) ， 除了 标准 的 Perl 核 
” 心 代码 模块 之 外 ， 还 会 附 捍 用 于 编译 与 安装 第 三 方 Perl 模 块 的 工具 。 


Perl 有 两 种 不 同 的 授权 条 款 。 对 只 是 使 用 Perl 的 大 部 分 人 来 说 ， 这 两 种 条 款 并 没有 什么 差 
别 。 不 过 如 果 你 想 修改 Perl， 请 详细 阅读 这 两 份 授权 条 款 ， 上 面 对 发 布 变动 过 的 Per 有 些 
限制 。 对 于 不 想 修改 Perl 的 人 而 言 ， 授 权 条 款 基本 上 是 说 ， “这 是 自由 软件 一 一 你 爱 怎 
么 用 都 行 。” 





事实 上 ， 它 不 仅 是 自由 软件 ， 还 能 在 几乎 所 有 自称 为 Unix、 具 有 C 编 译 器 的 系统 上 顺利 
运行 。 你 只 要 下 载 它 ， 键 入 一 两 条 命令 ，Perl 就 能 自行 配置 与 安装 。 还 有 更 好 的 办 法 ， 
就 是 找到 系统 管理 员 ， 让 他 键入 这 一 两 条 命令 来 帮 你 安装 上 121。 除了 Unix 和 类 似 Unix 的 
系统 之 外 ， 对 Perl 上 净 的 人 还 将 它 移 植 到 了 其 他 平台 上 ， 比 如 Mac 0OS X、VMS、OS/2， 


注 12: ”如 果 系 统管 理 员 不 能 安装 软件 ， 要 他 们 做 什么 ”如 果 难 以 说 服 管理 员 安 装 Perl， 可 以 用 买 
比萨 请 客 作 为 交换 条 件 。 我 们 还 没 碰 过 能 拒绝 免费 比萨 〈 或 其 他 容易 弄 到 的 食物 ) 的 系 


统管 理 员 。 
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甚至 还 包括 MS/DOS 以 及 所 有 Windows 的 现代 版 本 。 在 你 看 到 这 名 话 时 ， 可 能 又 增加 了 
更 多 支持 平台 E53]。 这 些 Perl 的 移植 版 本 (portfs) 通常 都 会 附带 安装 程序 ， 有 些 甚至 比 
Unix 的 安装 程序 更 容易 使 用 。 有 具体 信息 请 参考 CPAN 网 站 上 “ports” 部 分 中 的 链接 〈 译 
注 :， jittp:Wwww.cpan.ore/ports/index.Ptr2) 。 


CPAN 是 什么 ? 
CP4N 就 是 Perl 综 合 典藏 网 (Comprehensive Perl Archive Network) ， 可 以 说 是 非常 方便 
的 Perl 一 站 式 大 卖场 。 里 面 有 Perl 本 身 的 源 代码 、 各 种 非 Unix 系 统 的 安装 程序 星 生 、 范 
例 程 序 、 说 明文 档 、 扩 展 模块 以 及 跟 Perl 相 关 的 历史 邮件 存档 。 简 单 来 说 ，CPAN 无 所 不 
包 。 


CPAN 有 数 百 个 镜像 站 点 分 布 在 世界 各 地 ， 请 从 /ztp://searcp.cpan:org/ 开 始 ， 慢 慢 浏览 
整个 典藏 网 吧 。 如 果 你 无 法 访问 网 络 ， 也 可 以 到 附近 卖 技术 书籍 的 书店 找 找 ， 可 能 会 有 
CPAN 部 分 实用 内 容 构成 的 CD 或 DVD 出 售 。 不 过 ， 请 确认 它 是 最 新 版 本 。 既 然 CPAN 每 
时 每 刻 都 在 更 新 ， 那 么 两 年 前 的 库存 就 已 经 算是 老 古 董 了 。 更 好 的 办 法 就 是 找 个 可 以 访 
问 网 络 的 朋友 ， 帮 你 将 当天 的 CPAN 刻 录 成 光盘 。 


如 何 得 到 Perl 的 技术 支持 ? 
好 吧 ， 既 然 你 手 上 已 经 有 了 完整 的 源 代码 ， 那 么 何不 自己 动手 修 掉 bug 呢 ? 


你 不 禁 要 皱 慎 了 ， 对 吧 ? 不 过 从 某 种 程度 上 说 ， 这 确实 是 件 好 事 。 因 为 Perl 没 有 “ 源 代 
码 保护 条 款 ”， 所 以 理论 上 任何 人 都 可 以 修正 其 中 的 bug。 不 过 一 般 而 言 ， 当 你 找到 并 
确认 某 个 bug 时 ， 多 半 已 经 有 人 将 它 修好 了 。Perl 是 由 全 世界 数 千 人 共同 维护 的 。 


当然 ， 我 们 并 不 是 说 Perl 有 一 大 堆 bug， 但 是 它 充其量 只 是 一 个 程序 ， 而 所 有 程序 必定 至 
少 有 一 个 bug。 拥 有 Perl 源 代码 到 底 有 什么 好 处 呢 ? 我 们 不 妨 想 象 一 下 ， 假 设 你 现在 用 
的 是 一 种 叫做 Forehead 的 语言 ， 而 授权 出 售 它 的 公司 又 很 大 ， 老 板 是 某 个 发 型 难看 的 亿 
万 富 合 ( 纯 属 虚 构 ， 大 家 都 知道 没有 Forehead 这 种 语言 ) 。 如 果 你 发 现 Forehead 里 有 个 
bug， 你 能 做 什么 呢 ? 首先 ， 你 可 以 汇报 和 问题。 然后， 你 可 以 怀抱 希望 一 一 希望 他 们 会 
尽快 修复 这 个 问题 ， 希 望 下 个 版 本 卖 得 不 要 太 贵 。 你 还 可 以 希望 下 个 版 本 不 要 加 上 新 的 





注 13: ”并非 完全 如 此 ， 在 我 们 写 此 书 时 ， 在 Blackberry 上 还 不 能 这 么 做 这 个 系统 实在 是 太 
过 蛤 复 ， 即 便 是 简化 后 的 系统 也 是 如 此 。 但 已 有 传闻 说 它 可 以 在 Win CE 上 使 用 。 

注 14: ”一 般 来 讲 ， 在 Unix 系 统 上 自己 动手 编译 Per] 源 代码 才 是 最 佳 选 择 。 考 虑 到 其 他 系统 也 诗 
没有 C 编 译 器 ， 或 者 缺少 用 于 编译 的 工具 ， 所 以 CPAN 也 一 并 准备 了 预先 编译 好 的 二 进 制 可 
执行 文件 ， 下 载 下 来 就 能 使 用 。 
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功能 和 新 的 png， 并 且 和 希望 该 公司 不 会 川 为 犯 了 反 托 拉 斯 法 而 被 拆 成 两 半 。 


但 假如 是 用 Perl， 你 掌握 着 所 有 源 代 码 。 就 算 在 某 种 极端 情况 下 你 无 法 修复 某 个 bug， 
你 总 还 可 以 花 钱 雇用 某 个 程序 员 或 开发 团队 来 帮 你 解决 。 要 是 你 买 了 台新 式 计 算 机 ， 
Per]l 还 不 能 在 上 面 运行 ， 你 也 可 以 自己 进行 移植 。 如 果 你 想 要 某 个 新 功能 ， 你 也 知道 该 
怎么 办 。 


还 有 别 的 技术 支持 方式 吗 ? 

当然 了 ! 我 们 最 喜欢 的 技术 支持 之 一 就 是 Perl 推 广 组 (Perl Mongers) 。 它 是 全 世界 的 
Perl 用 户 组 织 ， 具 体 信 息 可 以 到 Atp:Wwww.pm,org/ 上 查阅 。 在 你 居住 的 城市 附近 就 应 该 
有 个 分 部 ， 可 以 找到 专家 或 认识 专家 的 人 。 要 是 附近 没有 ， 不 如 你 自己 成 立 一 个 吧 。 


当然 ， 作 为 第 一 手 的 技术 支持 ， 不 要 忘 了 你 手边 还 有 Perl 说 明文 档 可 供 翻阅 。 除 了 随 Perl 
安装 的 核心 文档 ， 你 还 可 以 到 CPAN (prtp://www.cpan.org8) 上 去 看 看 ， 也 可 以 到 其 他 
类 似 的 站 点 一 一 比如 htip:Wperldoc.perLor8 就 提供 了 Perl 核 心 文档 的 HTML 版 本 和 PDF 版 
本 ， 还 有 http:Wfad.perl.or8s/ 上 有 最 新 版 的 perlfag， 即 Perl 常 见 问 题 汇 编 。 


另 一 个 比较 权威 性 的 参考 是 《Perl 语 言 编 程 》 这 本 书 (译注 : 已 经 发 行 的 最 新 版 是 第 三 

版 ， 其 简体 中 文 版 已 由 中 国电 力 出 版 社 于 2001 年 出 版 发 行 。 目 前 即将 面市 的 第 四 版 将 于 
2011 年 11 月 出 版 发 行 ， 其 中 文 版 翻译 也 在 计划 之 中 。) ， 因 为 该 书 封面 动物 的 关系 ， 它 
通常 被 称 为 “大 骆驼 书 ” (就 像 本 书 被 叫 成 “小 骆驼 书 ” 一 样 ) 。 大 骆驼 书 里 包含 了 完 
整 的 参考 信息 、- 一 些 教学 范例 以 及 许多 与 Perl 相 关 的 杂项 信息 。 另 外 还 有 一 本 口袋 大 小 
的 《Perl 5 Pocket Reference》， 作 者 是 Johan Vromans (O'Reilly 出 版 ) ， 很 适合 拿 在 手 
上 阅读 (或 是 放 进 口袋 里 ) 。 


如 果 你 想 找 人 问 问题 ，Usenet 上 有 许多 新 闻 组 ， 此 外 还 有 很 多 邮件 列表 可 供 咨询 埋 5。 
无 论 何 时 ， 在 某 个 时 区 都 会 有 专家 回答 Usenet 上 Perl 新 闻 组 里 的 问题 ，Perl 是 个 日 不 落 帝 
国 ， 这 表示 在 你 提出 问题 的 几 分 钟 后 通常 就 会 有 人 提供 解答 。 但 如 果 你 事先 没 查 过 Perl 
自 带 的 说 明文 档 和 常见 问题 汇编 的 话 ， 几 分 钟 之 内 就 会 挨 骂 。 


Perl 官 方 的 Usenet 新 闻 组 位 于 comp.lan8.perlL.* 这 一 级 。 在 编写 此 书 时 ， 它 一 共有 五 个 
组 ， 但 也 会 随时 间 的 改变 而 有 所 增 减 。 你 《或 是 在 你 的 系统 上 负责 管理 Perl 的 人 ) 通常 . 
要 订阅 comp./en8g.perlL.annacounace 组 ， 它 是 个 低 流 量 、 仅 仅 只 有 重要 公告 信息 的 组 ， 也 包 
括 了 Perl 在 信息 安全 方面 的 公告 信息 。 如 果 需 要 人 指点 Usenet 的 使 用 方式 ， 请 就 近 询 向 
专家 。 


注 15: 比较 完整 的 邮件 列表 列 在 Pttp:/iisrs.perl.or8 上 。 


此 外 ， 也 有 一 些 从 事 Perl 讨 论 的 社 群 网 站 。 其 中 很 受 欢 迎 的 The Perl Monastery (pztp:/W/ 
Www.perlaonks.or8) 上 有 许多 Perl 书 籍 和 专栏 的 作家 ， 至 少 包 括 了 本 书 的 两 位 作者 。 你 
也 可 以 看 看 近年 来 比较 热门 的 Stack Overflow (Ptip:/Wwwwstackoverjowcom) 站 点 ， 上 
面 有 各 式 各 样 有 关 Pen 的 问答 和 讨论 。. 


你 也 可 以 到 Pttp:Wiearn.perl.org/ 以 及 对 应 的 邮件 列表 <beginanery@perl.org> 上 咨询 。 许 多 
著名 的 Perl 程 序 员 也 会 开设 技术 类 博客 ， 时 不 时 地 发 布 一 些 有 关 Perl 主 题 的 文章 ， 其 中 绝 
大 部 分 都 可 以 到 聚合 站 点 Perlsphere (ptip:Wperisppere.net) 上 阅读 。 


如 果 你 需要 签 一 份 Perl 的 技术 支持 服务 合约 ， 有 好 几 家 公司 会 愿意 收 你 的 钱 。 不 过 通常 
情况 下 ， 那 些 免 费 的 支持 资源 就 已 足够 。 


如 果 发 现 PerI 有 bug， 我 该 怎么 办 ? 

当 你 发 现 Perl1 有 bug 时 ， 请 务必 再 次 查 阔 Perl 文 档 吐 19 一 遍 星 171。Perl 有 许多 有 趣 的 特 
性 、 别 出 心 裁 的 用 法 ， 所 以 很 多 时 候 人 们 会 把 某 些 特性 或 者 另类 的 用 法 误 以 为 是 bug。 
另外 ， 请 确定 当前 安装 的 是 最 新 版 的 Perl， 老 版 本 的 bug 多 半 已 经 在 新 版 中 清除 干净 。 


如 果 你 99% 确 定 自 己 找到 了 真正 的 bug， 请 再 问 问 看 周围 的 朋友 、 公 司 的 同事 ， 或 者 在 参 
加 当地 Perl 推 广 组 活动 或 Perl 集 会 时 提问 。 它 很 可 能 仍旧 是 某 项 特性 ， 而 非 bug。 


要 是 你 100% 确 定 找到 了 一 个 真正 的 bug 的 话 ， 写 一 个 针对 它 的 测试 脚本 。 (什么 ? 难道 
你 从 没 写 过 测试 么 ? ) 一 个 写 得 好 的 测试 应 该 是 任何 一 个 Perl 用 户 都 能 运行 并 重 现 你 所 
找到 的 问题 的 。 有 了 能 清楚 重 现 bug 的 测试 案例 后 ， 可 以 用 工具 程序 peripug 〈 随 Perl 一 起 
发 布 ) 报告 此 bug。 一 般 是 通过 发 送 邮件 的 方式 报告 给 Perl 开 发 者 团队 ， 所 以 请 务必 在 淮 
” 备 好 测试 程序 后 再 用 per1bug 报 告 ， 否 则 他 们 难以 为 继 。 


如 果 一 切 顺利 ， 报 告发 送 后 不 出 几 分 钟 ， 你 就 会 收 到 来 自 开发 团队 的 回应 。 如 果 问 题 已 
经 解决 ， 他 们 会 给 你 发 送 一 个 补丁 文件 ， 然 后 你 可 以 自己 打上 补丁 ， 继 续 手 头 的 工作 。 

当然 ， 最 坏 的 情况 下 也 可 能 完全 没有 回应 ，Perl 开 发 者 并 不 是 非得 要 立即 处 理 收 到 的 bug 
报告 ， 严 格 来 说 他 们 没有 这 样 的 义务 。 不 过 既然 我 们 大 家 都 这 么 热爱 Perl 语 言 ， 谁 也 不 
会 坐 看 bug 在 自己 眼皮 底下 道 遥 法 外 的 。 


注 16: ”即便 是 Larry 自 己 ， 也 时 常 查阅 文档 ， 确 认 一 些 信息 。 
注 17: “有 时 还 得 反复 查 上 两 三 次 。 我 们 往往 在 浏览 文档 中 菜 个 异常 状况 的 线索 时 发 现 新 的 细 
节 ， 而 这 些 细节 最 后 都 成 了 讲座 或 专栏 文章 里 面 的 有 趣 花 宗 。 
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我 该 怎么 编写 Per 程序? 


差不多 是 问 这 个 问题 的 时 候 了 (即使 你 还 没 问 ) 。Perl 程 序 只 是 一 个 纯 文 本 文件 ， 你 可 
以 用 任何 一 个 自己 喜欢 的 文本 编辑 器 来 创建 或 编辑 Perl 程 序 。Perl 不 需要 特殊 的 开发 环 
境 ， 虽 然 也 有 厂商 提供 专门 的 商业 软件 。 我 们 从 未 用 过 这 类 软件 ， 所 以 没有 发 言 权 ， 无 
法 向 你 推荐 (相反 ， 我 们 倒是 有 一 推理 由 可 以 说 明 根本 没 必 要 用 这 类 商业 软件 ) 。 不 
过 ， 你 自己 的 开发 环境 归根 结 底 还 是 你 自己 说 了 算 。 随 便 问 三 个 程序 员 他 们 用 什么 开发 
环境 写 程序 ， 或 许 会 得 到 八 种 不 同 答案 。 


一 般 来 说 ， 你 应 该 使 用 程序 员 专 用 的 编辑 器 ,而 不 是 普通 的 编辑 软件 。 两 者 有 什么 不 同 
呢 ? 程序 员 专用 的 编辑 器 可 以 快速 方便 地 执行 写 程序 时 常用 的 那些 操作 ， 比 如 调整 一 段 
代码 的 缩 排 ， 或 者 查找 并 定位 成 对 的 括号 。 在 Unix 系 统 上 最 受 欢 迎 的 两 种 程序 员 专 用 编 
辑 器 是 emacs 和 7 (以 及 它们 的 衍生 版 本 ) ， 而 BBEdit 和 TextMate 则 是 Mac OS X 系 统 上 
深 受 欢迎 的 文本 编辑 器 。 在 Windows 上 有 很 多 人 推荐 使 用 UltraEdit 和 PFE (Programmer's 
Favorite Editor) 。 至 于 其 他 可 供 选 用 的 文本 编辑 器 ， 不 妨 看 看 列 在 perlfzd3 文 档 中 的 清 
单 。 如 果 不 知 道 自己 的 系统 上 该 用 哪个 文本 编辑 器 ， 请 咨询 附近 的 系统 管理 员 或 者 专 
家 。 


本 书 习题 需要 编写 简单 的 程序 ， 但 长 度 都 不 超过 二 三 十 行 ， 所 以 你 用 哪 种 文本 编辑 器 都 
没 问 题 。 


有 些 初 学 者 会 尝试 使 用 文字 处 理 器 来 代替 文本 编辑 器 。 我 们 不 建议 这 种 做 法 ， 首 先 写 起 
来 不 方便 ， 其 次 还 有 可 能 根本 无 法 运行 写 出 来 的 代码 。 我 们 不 会 强制 你 作 何 选择 ， 不 过 
至 少 请 确认 文字 处 理 器 以 “ 纯 文本 ”格式 保存 你 的 文件 ， 以 免 采 用 默认 保存 格式 而 导致 
无 法 运行 程序 。 几 乎 所 有 的 文字 处 理 器 都 会 提醒 你 ， 正 在 编辑 的 Perl 程 序 有 一 大 堆 拼写 
错误 ， 你 还 应 该 少 用 一 点 分 号 。 


在 某 些 情况 下 ， 你 可 能 需要 在 一 台 机 器 上 写 程 序 ， 再 传送 到 另 一 台 机 器 上 运行 。 这 个 时 
候 ， 请 使 用 “文本 模式 〈text mode) ”或 者 “ASCII 模 式 (ASCII mode) ”来 传输 程 
序 。 记 住 ， 千 万 不 能 是 “二 进 制 模式 (binary mode) ”。 即 便 是 文本 文件 ， 不 同系 统 
对 待 换行 符 的 方式 也 有 所 不 同 ， 所 以 碰 到 无 法 理解 的 换行 符 时 ， 某 些 老 旧 的 Perl 还 可 能 


会 中 断 运行 。 


一 个 简单 的 程序 
接 历来 习惯 ， 任 何 一 门 根植 于 Unix 文 化 的 程序 语言 人 门 书 都 会 以 “Hello,World” 这 个 
程序 作为 开头 。 所 以 ， 下 面 是 它 在 Perl 里 面 的 写法 ; 


#17usT/bin/perl 
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print “HelLlo，worldlvn"; 


假设 我 们 已 经 将 上 面 两 行 代码 输入 到 文本 编辑 器 里 了 (暂且 先 别管 程序 各 部 分 是 什么 意 
思 ， 我 们 很 快 就 会 讨论 到 ) 。 一 般 来 说 ， 程 序 可 以 以 任何 文件 名 保存 。Perl 程 序 并 不 需 
要 用 什么 特殊 的 文件 名 或 扩展 名 命名 ， 甚 至 能 不 用 扩展 名 就 最 好 不 要 用 硅 18。 不 过 ， 某 
些 Unix 以 外 的 系统 上 也 许 必 须 使 用 .pix (代表 PerL eXecutable) 之 类 的 扩展 名 ， 进 一 步 的 
信息 请 参考 你 的 系统 中 Perl 发 行 版 本 的 相关 说 明 。 


接 下 来 ， 你 可 能 还 需要 告诉 系统 ， 该 文件 是 一 个 可 执行 程序 〈 也 就 是 一 个 命令 ) 。 不 同 
的 系统 需要 的 操作 方式 也 会 有 所 不 同 ， 也 许 只 需要 将 程序 文件 存储 到 某 个 地 方 就 行 了 
(多 数 时 候 在 你 当前 的 工作 目录 也 行 ) 。 在 Unix 系 统 上 ， 你 可 以 使 用 cpmod 命 令 将 程序 
文件 的 属性 修改 为 可 执行 的 ， 如 下 所 示 : 


$ chmod a+x my_pPIT08gIamn 


其 中 ， 最 前 面 的 美元 符号 〈 以 及 空白 ) 代表 命令 行 提示 符 (shell prompt) ， 在 你 的 系统 
上 多 半 会 不 太一 样 。 如 果 执 行 cpmod 时 习惯 用 755 之 类 的 数值 而 不 是 a+x 这 样 的 符号 来 代 
表 权 限 ， 那 当然 也 没有 问题 。 不 管用 哪 种 写法 ， 它 都 能 告诉 系统 ， 这 个 文件 现在 已 经 是 
一 个 可 以 执行 的 程序 了 。 


现在 ， 已 经 可 以 运行 这 个 程序 了 : 
$ ./my_program 


命令 开头 的 点 号 与 斜 线 表示 要 在 当前 工作 目录 (current working directory) 里 查找 这 个 
程序 。 并 不 一 定 每 次 都 需要 这 么 写 ， 但 在 完全 了 解 它们 的 意义 之 前 ， 每 次 执行 命令 时 加 
上 它 总 归 不 会 有 错 的 往 !9。 如 果 写 完 第 一 次 运行 就 能 如 期 运行 ， 那 简直 就 是 奇迹 。 一 
般 多 少 会 有 些 低级 错误 导致 的 pug， 简 单 修 整 一 下 ， 再 运行 一 次 就 好 了 。 不 必 每 次 运行 
前 都 用 cpnrmod， 因 为 一 旦 设 定 文件 的 可 执行 属性 后 ， 这 个 状态 会 一 直 保 留 ， 不 会 发 生变 


注 18: 为 什么 不 带 扩展 名 比较 好 ? 假设 你 写 了 一 个 计算 保龄球 分 数 的 程序 ， 然 后 告诉 所 有 朋友 
它 的 文件 名 是 powiing.pIx。 之 后 某 一 天 ， 你 决定 以 C 语 言 来 改写 它 。 要 保留 原来 的 文件 
名 ， 继 续 让 人 以 为 它 是 用 Perl 写 的 吗 ? 还 是 要 跟 大 家 说 它 换 了 个 新 名 字 呢 ? (拜托 ， 可 执 
行文 件 的 名 称 请 不 要 巴 bpowiing.cl ) 正确 答案 是 : 程序 是 用 什么 语言 写 的 跟 用 户 一 点 关 
系 也 没有 。 所 以 ， 程 序 最 初 的 文件 名 就 应 该 叫 powling。 

注 19:， 简 而 言 之 ， 这 是 为 了 防止 shell 执 行 同名 的 其 他 程序 〈 或 shell 的 内 置 命令 ) 。 初 学 者 常 犯 
的 一 个 错误 ， 就 是 把 第 一 个 程序 取 名 为 1est。 很 多 系统 已 经 有 同名 程序 (或 shell 的 内 置 命 
令 ) 了 ， 所 以 不 加 路 径直 接 运 行 的 很 有 可 能 就 是 系统 自 带 的 程序 或 命令 ， 而 不 是 你 写 的 
那个 。 内 
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化 。 (当然 ， 如 果 因 为 运行 cpmod 时 没有 赋予 程序 文件 可 执行 权限 ， 那么 运行 该 程序 时 
会 报告 “无 此 权限 (permission denied) ”这 样 的 错误 信息 。) 


这 个 简单 的 程序 在 Perl $.10 及 其 后 续 版 本 里 还 可 以 有 另外 一 种 不 同 的 写法 。 这 次 不 用 
print， 改 用 say， 它 的 效果 基本 相同 ， 但 却 不 需要 输入 换行 符 ， 并 且 减 少 了 键入 次 数 。 
由 于 这 是 个 新 特性 ， 而 你 可 能 还 设 安装 Perl 5.10， 所 以 使 用 use 5.010 语 句 告诉 Perl,， 我 ， 
们 需要 引入 该 版 本 中 的 新 特性 ， 


#1VAUSITVbinVpeT1 
Use 5.010; 


say“Helloworldl ; 


这 个 程序 只 能 在 Perl 5.10 及 其 后 续 版 本 中 运行 ， 在 本 书后 续 章 节 中 介绍 到 Perl 5.10 的 新 
特性 时 ， 我 们 都 会 明确 告诉 你 这 一 点 ， 并 且 使 用 use 5.010 语 名 作为 提醒 。 因 为 Perl 总 是 
将 次 版 本 号 看 作 是 三 位 数 表示 的 ， 所 以 前 导 零 千 万 不 要 省 略 ， 记 住 要 写成 use 5.010 而 
不 是 use 5.10 (Perl 会 把 它 当 作 5.100， 一 个 目前 我 们 还 没 发 布 的 版 本 ! ) 。 


一 般 来 说 ， 我 们 只 需要 声明 新 特性 初次 引入 的 版 本 号 即 可 。 不 过 本 书 会 谈论 最 新 的 
Per15.14 版 ， 所 以 有 很 多 新 特性 是 在 该 版 本 后 引入 的 ， 这 些 特性 的 示例 代码 都 应 该 添加 
下 面 这 行 


USe 5.014; 


程序 里 写 的 是 什么 ? 

和 其 他 “形式 自由 (free-form) ”的 语言 一 样 ，Perl 通 常 可 以 随意 加 上 空白 符 〈 像 空 
格 、 制 表 符 与 换行 符 等 ) ， 使 程序 代码 更 易 阅读 。 不 过 多 数 Perl 程 序 都 会 选择 使 用 比较 
统一 的 格式 标准 ， 本 书 也 不 例外 考 201。 我 们 强烈 建议 并 鼓励 使 用 适当 的 缩 排 ， 因 为 它 
能 有 效 增 加 程序 的 可 读 性 。 缩 排 工作 并 不 麻烦 ， 许 多 专业 的 文本 编辑 器 都 能 帮 你 自动 处 
理 。 此 外 ， 好 的 注释 也 能 改善 程序 的 可 读 性 ， 从 而 快速 直观 地 理解 程序 要 做 的 事 。Perl 
里 的 注释 是 从 井 号 (#) 开始 到 行 尾 结束 的 部 分 。 (Perl! 没 有 “注释 块 ”的 概念 星 20) 。 
我 们 不 会 在 本 书展 示 的 程序 中 使 用 很 多 注释 ， 因 为 代码 前 后 的 正文 本 身 就 会 对 它 做 详细 
解释 。 但 在 你 的 程序 里 ， 请 尽量 加 上 适当 的 注释 。 


如 果 不 管 格式 ， 仍 然 以 之 前 的 “Hello,World” 来 说 ， 写 成 下 面 这 样 虽然 也 能 运行 ， 但 老 
实说 ， 这 种 写法 实在 是 太 诡异 了 : 


注 20: ”在 peristDyle 文 档 中 介绍 了 一 些 通用 的 缩 排 建议 (但 不 是 硬性 规定 蛾 ) 。 
注 21: 但 也 有 许多 模拟 方法 ， 具 体 技 巧 请 参考 文档 的 perlfag 部 分 中 的 说 明 。 





#17usT/binVperi 
print# 这 里 的 部 分 就 是 注释 
”Hello，worldliNn” 
# 不 要 把 Per1 代 码 写 成 这 个 样子 
第 一 行 其 实 是 个 具有 特殊 意义 的 注释 。 在 Unix 系 统 里 星 2]， 如 果 文 本 文件 开头 的 最 前 两 
个 字符 是 #!， 那 么 后 面 跟着 的 就 是 用 来 执行 这 个 文件 的 程序 路 径 。 在 上 例 中 ， 该 程序 就 


是 /zsmDin/per1。 


事实 上 ，Perl 程 序 里 最 缺乏 可 移植 性 的 就 是 #! 那 行 了 ， 因 为 你 必须 确定 在 每 台 机 器 上 per/ 
解释 器 是 放 在 什么 路 径 下 的 。 幸 好 多 数 情况 下 不 外 乎 /usr/Bpiz/perl 和 /usr/ioca1bin/per! 这 
两 种 。 如 果 不 是 ， 你 就 得 找 出 系统 上 的 perl 解 释 器 程序 究竟 是 藏 在 哪个 路 径 下 ， 然 后 改 
用 此 路 径 。 在 Unix 系 统 上 ， 还 可 以 写成 下 面 这 种 样子 ， 通 过 在 shebang 行 上 执行 外 部 命令 
自动 帮 你 定位 perl! 解 释 器 的 路 径 : 


#1/VusY/bjinVenvper1 


如 果 在 所 有 可 查找 的 目录 下 都 找 不 到 perl! 解 释 器 ， 就 近 请 教 一 下 系统 管理 员 或 是 使 用 同 
样 系统 的 朋友 吧 。 但 请 记 住 ， 这 仅仅 是 定位 所 能 找到 的 第 一 个 per! 解 释 器 ， 而 它 未 必 就 
是 你 希望 使 用 的 那个 。 


在 非 Unix 系 统 中 ， 传 统 上 第 一 行 会 写成 #1 per1 (其 实 这 也 是 有 用 的 ) 。 至 少 ， 它 能 让 
维护 人 员 在 着 手 修 正 程序 时 ， 马 上 知道 这 是 个 Perl 程 序 。 


要 是 #! 行 写 错 了 ，shell 通 常会 给 出 错误 信息 。 它 的 内 容 可 能 会 出 乎 意料 ， 如 “File not 
found ( 找 不 到 文件 ) ”或 “bad interpreter (错误 的 解释 器 ) ”。 这 并 不 是 说 shell 找 不 到 
你 要 运行 的 程序 ， 而 是 说 找 不 到 程序 中 指定 的 /usrBpin/per!。 我 们 也 很 想 把 这 个 报错 信息 
改 得 更 清楚 明确 些 ， 但 它 不 是 Perl 发 出 的 ， 发 出 抱怨 的 是 shell。 


另 一 个 你 可 能 会 碰 上 的 问题 ， 就 是 你 的 系统 完全 不 支持 #! 行 。 这 样 一 来 ， 你 的 shell (或 
者 不 管 其 他 什么 类 似 shell 的 东西 ) 也 许 会 直接 尝试 运行 你 的 程序 ， 出 来 的 结果 多 半 会 叫 
人 失望 或 是 出 人 意料 。 要 是 你 搞 不 清 某 些 奇怪 的 错误 信息 在 讲 什么 ， 可 以 到 peridiag 文 
档 中 查阅 。 

“ 主 (main). ”程序 完全 由 著 通 的 Perl 语 名 (statement) 组 成 ( 子 程序 里 的 除外 ， 
这 个 我 们 稍 后 再 谈 ) 。 这 和 C 或 Java 语 言 不 同 ，Perl 里 头 没有 以 “main” 命 名 的 例 程 
(routine) 。 事 实 上， 好 多 Per 程序 可 能 根本 不 用 子 程序 。 





注 22: 当然， 我们 指 的 是 比较 近 现 代 的 系统 。 “sh-bang” 读 作 “sheh-bang”， 就 像 在 “the 
whole shebang” 中 的 读音 一 样 。 这 种 写法 是 在 20 世 纪 80 年 代 中 期 开始 用 起 来 的 ， 对 Unix 
这 样 历史 并 不 太 悠 久 的 系统 而 音 ， 这 已 经 算是 相当 早期 的 功能 了 。 











另外 ，Perl 程 序 并 不 需要 变量 声明 的 部 分 ， 这 点 和 其 他 语言 不 同 。 如 果 过 去 你 一 直 习 惯 
声明 所 有 变量 ， 那 现在 可 能 会 有 点 不 安 。 不 过 ， 这 种 特性 使 得 我 们 可 以 编写 “虽然 有 点 
难看 但 马上 就 能 运行 ”的 Perl 程 序 。 如 果 程 序 的 长 度 只 有 两 行 ， 却 将 其 中 一 行 耗费 在 声 
明 变 量 上 ， 似 乎 不 太 值 得 。 如 果真 的 想 声 明 变 量 的 话 ， 那 也 是 一 件 好 事情 ， 我 们 会 在 第 
四 剖 里 讨论 怎么 做 。 


Perl 语 言 的 大 部 分 语句 都 是 表达 式 后 面 紧 接着 一 个 分 号 里 231。 下 面 的 语句 我 们 已 经 看 到 
过 好 几 次 了 ， . 


-print “Hel1o，worldiNn”; 


你 大 和 邮 已 经 猜 到 了 ， 上 面 这 行 会 输出 Hel1lo，wor1di。 接 在 这 两 个 词 后 面 的 是 转 义 写法 
的 \n， 其 信义 对 于 熟悉 C、C++ 和 Java 的 用 户 来 说 应 该 不 陌生 : 它 就 是 换行 符 (newline 
character) 。 当 它 跟 在 某 些 字符 串 后 面 打印 出 来 时 ， 光 标 位 置 会 从 行 末 移 到 下 一 行 的 开 
头 ， 这 样 结束 运行 后 ，shel] 的 提示 符 就 可 以 在 新 的 一 行 开 始 ， 而 不 必 跟 在 程序 输出 的 信 
息 后 面 ， 所 以 在 写 这 样 的 程序 时 ， 最 好 在 每 一 行 输出 的 信息 后 面 都 加 上 换行 符 作 为 结 
尾 。 下 一 章 ， 我 们 将 会 看 到 更 多 关于 换行 符 的 转 义 写法 以 及 其 他 各 式 “ 反 斜 线 转 义 ” 
(backslash escape) 的 介绍 。 


我 该 如 何 编译 Perl 程 序 ? 
只 需要 直接 运行 它 就 可 以 了 。 只 此 一 步 ，perl 解 释 器 能 一 次 完成 编译 和 运行 这 两 个 动 
作 


$ pez]l my_pTogTam 


运行 程序 时 ，Perl 内 部 的 编译 器 会 先 载 入 整个 源 程序 ， 将 之 转换 成 内 部 使 用 的 pytecode， 
这 是 一 种 Perl 在 内 部 用 来 表示 程序 语法 树 的 数据 结构 ， 然 后 交 给 Perl 的 bytecode 引 擎 运 
行 。 所 以 ， 如 果 在 第 200 行 有 个 语法 错误 ， 那 么 在 开始 运行 第 二 行星 2 代码 之 前 ，Perl 
就 会 报告 这 个 错误 。 如 果 你 的 程序 中 有 一 个 运行 5 000 次 的 循环 ， 它 只 会 被 编译 一 次 ， 
然后 每 次 循环 都 以 最 快 的 速度 运行 。 除 此 之 外 ， 为 了 提高 易 读 性 ， 不 论 你 用 多 少 注释 和 
空白 ， 它 们 都 不 会 影响 运行 时 (runtime) 的 速度 。 你 甚至 可 以 使 用 完全 由 常量 组 成 的 算 
式 ， 它 的 值 只 会 在 程序 开始 时 被 计算 一 次 ， 哪 怕 它 是 在 某 个 循环 中 也 只 被 计算 一 次 ， 然 
后 在 后 续 的 执行 中 重用 计算 结果 。 


不 用 说 ， 编 译 是 要 花 时 间 的 一 一 所 以 如 果 只 是 为 了 要 迅捷 地 完成 某 个 简短 任务 而 去 运行 
一 个 宛 长 的 包含 其 他 各 种 任务 代码 的 Perl 程 序 ， 会 显得 效率 低下 ， 因 为 花 在 编译 上 的 时 
注 23 : 分 号 的 目的 是 分 隔 不 同 的 Perl 语 身 ， 而 不 是 断 行 。 

注 24: ”除非 第 二 行 恰 好 是 编译 时 (compile-time) 执行 的 指令 ， 比 如 BEGIN 块 或 者 Use 语句。 
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闻 可 能 会 比 运行 时 间 还 要 长 。 不 过 Perl 编 译 器 的 运行 速度 非常 决 ， 通 常 编译 时 间 只 占 运 
行 时 间 的 极 少 部 分 而 已 。 了 


不 过 ， 有 个 例外 的 状况 ， 如 果 你 编写 的 是 CGI 脚本 ， 它 有 可 能 每 分 钟 会 被 Web 服 务 器 调 
用 运行 成 百 上 千 次 (这样 的 使 用 频率 非常 高 。 如 果 像 Web 上 的 大 多 数 程序 一 样 ， 只 是 每 
天 运行 成 百 上 千 次 的 话 ， 就 没什么 好 担心 的 了 ) 。 大 多 数 这 类 程序 的 运行 时 间 都 很 短 ， 
所 以 重复 编译 造成 的 时 间 消 耗 问 题 可 能 会 比较 明显 。 如 果 你 碰 上 这 种 情况 ， 就 需要 想 办 
法 将 程序 代码 编译 后 让 它 驻 留 到 内 存 中 ， 好 让 后 续 的 调用 跳 过 编译 ， 直 接 运 行 。Apache 
Web 服 务 器 (pttp:/Wperl.apache.or8) 的 mod_per]1 扩 展 模 块 或 者 类 似 CGI: :Fast 这 样 的 Perl 
模块 都 可 以 解决 这 个 问题 。 


要 是 把 编译 后 的 bytecode 存 储 起 来 ， 能 否 节省 编译 时 间 ? 或 者 更 进一步 地 说 ， 能 否 将 
bytecode 转 换 成 另 一 种 语言 ， 比 如 C 语 言 ， 然 后 再 进行 编译 ? 好 吧 ， 其 实 以 上 两 种 做 法 
在 某 些 情况 下 都 是 可 行 的 ， 不 过 老实 说 这 么 做 并 没什么 好 处 ， 程 序 不 会 因此 变 得 更 易 使 
用 、 维 护 、 调 试 或 安装 ， 甚 至 〈 由 于 某 些 技术 性 因素 ) 还 会 让 程序 运行 得 更 慢 。 


走马 观 花 


读 到 这 里 ， 你 一 定 想 看 看 可 以 派 上 实际 用 场 的 Perl 程 序 到 底 是 什么 样子 〈 要 是 你 不 想 ， 
麻烦 暂时 合作 一 下 嘛 ) 。 请 看 : 

#! /usr/bin/Vpezl 

@lines =“perldoc -U -fatan2 ; 

foreach (@lines) { 


sS/AWC([^>]+)>/NAU$178; 
pTinty; 


如 果 这 是 你 第 一 次 看 到 这 样 的 Perl 代 码 ， 可 能 会 党 得 有 点 怪异 (事实 上 ， 每 次 读 到 这 样 
的 Per 代码 ， 都 会 让 你 觉 着 挺 奇怪 的 ) 。 不 过 ， 我 们 会 逐 行 讲解 这 段 程序 ， 看 看 它 到 底 
做 了 些 什么 《下面 的 介绍 会 非常 简略 ， 毕 竞 这 一 节 只 是 “走马 观 花 ”。 程 序 里 用 到 的 所 
有 功能 在 后 面 的 章节 中 都 会 详 加 说 明 ， 你 不 需要 现在 就 把 程序 彻底 搞 懂 ) 。 


第 一 行 是 我 们 介绍 过 的 #! 行 。 在 你 自己 的 系统 上 ， 可 能 需要 修改 -FF ， 确 认 使 用 的 是 正确 
的 路 径 ， 具 体 请 参考 前 文 所 述 。 


第 二 行 运 行 了 一 个 外 部 命令 ， 通 过 一 对 反 引 号 〈) 来 调用 《〈 反 引号 的 按键 在 全 尺寸 的 
美式 键盘 上 数字 键 1 的 左边 。 请 注意 ， 不 要 把 反 引 号 和 单 引 号 ““'“ … 搞 混 了 ) 。 我 们 要 运 
行 的 外 部 命令 是 perldoc -x -atan2。 请 在 命令 行 上 键入 这 条 命令 ， 看 看 它 会 输出 什么 信 
息 。perldoc 命 令 在 大 部 分 系统 上 都 有 ， 可 以 用 它 来 阅读 Perl 及 其 相关 扩展 和 工具 程序 的 





简介 | 27 


说 明文 档 星 2]。 这 条 命令 会 显示 在 Perl 中 如 何 使 用 三 角 函 数 atan2 的 一 些 信息 。 不 过 这 里 
我 们 只 是 用 它 来 示范 如 何 处 理 外 部 命令 的 输出 结果 。 


当 反 引号 里 的 命令 执行 完毕 后 ， 输出 结果 会 一 行 行 依次 被 存储 在 6L ines 这 个 数组 变量 
中 。 后 面 一 行 代码 会 启动 一 个 循环 ， 依 次 对 每 行 数据 进行 处 理 。 循 环 里 的 代码 是 缩 排 过 
的 ， 虽 然 Perl 并 不 强迫 你 这 么 做 ， 但 好 的 程序 员 都 会 如 此 要 求 自 己 。 


循环 里 的 第 一 行 代码 看 起 来 最 恐怖 ， s/\wc([^>]+)>/\U$17g; 。 此 处 不 会 深入 讨论 细节 ， 
它 的 大 概 意思 就 是 : 对 每 个 包含 一 对 尖 括 号 (>) 的 行进 行 相应 的 数据 替换 操作 。 而 在 
perldoc 命 令 的 输出 结果 里 ， 应 该 至 少 有 一 行 符 合 此 操作 条 件 。 


至 于 循环 内 的 第 二 行 代码 则 来 了 个 大 变样 ， 一 下 简洁 不 少 ， 它 直接 输出 每 行 的 内 容 《有 
可 能 被 上 面 的 蔡 换 操作 修改 过 ) 。 最 后 的 输出 结果 看 起 来 应 该 和 perldoc -x :atan2 的 执 
行 结果 差不多 ， 只 是 其 中 出 现 尖 括 号 的 地 方 有 所 不 同 。 


就 这 样 ， 在 短 短 数 行 代码 中 ， 我 们 调用 了 别 的 程序 ， 并 将 它 的 输出 结果 放 到 内 存 ， 然 后 
更 新 内 存 里 的 数据 ， 最 后 输出 。 很 多 时 候 ， 我 们 都 是 用 Perl 来 做 这 种 数据 转换 工作 的 。 


习题 
一 般 来 说 ， 每 章 结束 时 都 会 有 几 道 习题 ， 解 答 则 放 在 附录 A 中 。 不 过 在 本 章 的 习题 中 就 
不 用 写 程 序 了 一 一 答案 已 经 在 前 面 出 现 过 了 。 


如 果 在 你 的 机 器 上 不 能 做 这 些 习题 ， 请 先 自己 详细 检查 几 遍 ， 然 后 再 就 近 询问 专家 。 别 
忘 了 有 时 候 我 们 需要 修改 下 程序 ， 弱 化 一 部 分 功能 再 运行 ， 就 像 我 们 在 文中 提 到 的 那 
样 ， 


1.， [7] 键 入 前 面 的 “Hello, world” 程 序 ， 想 办 法 让 它 运行 起 来 1 程序 文件 可 以 取 任何 
名 称 ， 比 如 说 ex7-17 这 样 简洁 的 名 称 就 不 错 ， 用 以 表示 第 一 章 中 的 第 一 道 习 题 。 一 
般 有 经 验 的 程序 员 都 会 如 此 命名 。 这 个 练习 的 目的 是 要 确保 你 的 系统 上 已 经 准备 好 
开发 环境 ， 如 果 这 个 程序 能 正常 运行 ， 那 就 说 明 系 统 中 的 per! 可 以 正常 工作 。 





注 25: ”如果 没 有 perldoc 命 令 可 用 ， 很 可 能 意味 着 你 的 系统 没有 命令 行 累 面 ， 并 且 你 的 Perl 也 无 
法 通过 反 引 号 运行 外 部 命令 〈 如 peridoc) 或 打开 一 个 管道 传送 数据 给 外 部 程序 ， 有 关 管 
道 方面 的 知识 可 参考 第 十 四 齐 。 要 是 碰 上 这 种 情况 ， 现 在 就 请 先 跳 过 perldoc 这 行 代码 





28 | 第 一 章 


[5] 在 命令 行 提 示 符 后 键 人 peridoc -& -atanr2 这 条 命令 ， 并 观察 它 的 输出 结果 。 如 
果 无 法 执行 ， 请 就 近 询问 系统 管理 员 或 参考 Perl 发 行 版 本 的 说 明 ， 找 出 如 何 调用 
peridoc 或 相近 的 其 他 命令 (下 道 题目 也 会 用 到 这 个 命令 ) 。 

[6] 键 入 第 二 个 例子 中 给 出 的 程序 《参阅 上 一 节 ) ， 看 看 它 会 输出 什么 。 提 醒 一 
王 : 请 仔细 按照 书 上 的 标点 符号 键入， 不 要 打 错 了 1! 你 能 看 出 来 它 是 如 何 改变 外 部 
命令 的 输出 结果 的 吗 ? 
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英语 跟 许 多 其 他 语言 一 样 区 别 单 数 (singular) 和 复数 (plural) 。 作 为 一 个 由 人 类 语言 
学 家 设计 的 计算 机 语言 ，Perl 也 有 类 似 的 区 别 。 一 般 来 说 ，Perl 用 标量 (scalar) 哇 1 来 
称呼 单个 事物 。 标 量 是 Perl 里 面 最 简单 的 一 种 数据 类 型 。 对 大 部 分 标量 来 说 ， 它 要 么 是 
数字 (比如 255 或 是 3.25e20) ， 要 么 是 由 字符 组 成 的 序列 (比如 hellot 注 3 或 林肯 总 统 的 
Gettysburg 演 讲 词 ) 。 虽 然 你 可 能 会 认为 数字 和 字符 串 是 两 码 事 ， 但 对 Perl 来 讲 ， 这 两 者 
大 多 情况 下 都 是 可 以 在 内 部 转换 的 。 


你 可 以 用 操作 符 对 标量 进行 操作 〈 比 如 加 靶 或 字符 串 连 接 ) ， 产 生 的 结果 通常 也 是 一 个 
标量 。 标 量 可 以 存储 在 标量 变量 里 ， 也 可 以 从 文件 和 设备 读 取 或 者 写 和 人 这 些 位 置 。 


四 [es 

数字 

虽然 标量 不 外 平 数字 和 字符 串 这 两 种 情况 ， 但 我 们 还 是 分 别 讨 论 ， 这 样 比较 容易 厘清 头 
绪 。 我 们 先 讨论 数字 类 型 的 标量 ， 然 后 再 来 讨论 字符 串 类 型 的 标量 。 


所 有 数字 的 内 部 格式 都 相同 


接 下 来 ， 我 们 会 看 到 如 何 设 定 整数 (不 带 小 数 点 的 数字 ， 比如 255 和 2 001) 以 及 浮 点 数 


注 1; 这 和 数学 或 物理 学 上 同名 的 “标量 ”没什么 关系 ，Perl 语 言 里 是 没有 “向 量 (vector) ” 
的 。 

注 2: 如 果 用 过 其 他 程序 语言 ， 你 可 能 会 认为 hel1o 是 5 个 字符 的 集合 ， 而 非 单 个 事物 。 但 在 Perl 
里 ， 字 符 事 就 是 独立 的 一 个 标量 值 。 当 然 ， 有 必要 时 我 们 还 是 可 以 访问 其 中 的 每 个 字符 
的 ， 具 体 做 法 会 在 后 面 的 章节 介绍 。 
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( 带 有 小 数 点 的 数字 ， 比 如 3.14159 或 者 1.35 x 10235 等 ) 。 但 在 Perl 内 部 ， 则 总 是 按 “ 双 
精度 浮 点 数 (double-precision floating-point) [ 注 3” 的 要 求 来 保存 数字 并 进行 运算 的 。 
也 就 是 说 ，Perl 内 部 并 不 存在 整数 值 一 一 程序 中 用 到 的 整 型 常量 会 被 转换 成 等 效 的 秀 点 
数值 性 4。 当 这 类 转换 发 生 时 ， 你 大 概 无 法 注意 到 (也 许 根 本 不 想 注意 ) ， 不 过 如 果 你 
想 找 找 看 有 没有 专门 的 整 型 运算 (相对 于 浮 点 运算 ) ， 请 马上 停 手 ， 因 为 根本 没有 这 种 
东西 星 31。 


浮 点 数 直接 量 
直接 量 (literal) 是 指 某 个 数字 在 Perl 源 代码 中 的 写法 。 直 接 量 并 非 运算 结果 ， 也 不 是 
IO (输入 /输出 ) 操作 的 结果 ， 它 只 是 直接 键 人 程序 源 代 码 中 的 数据 。 


你 应 该 对 Perl 浮 点 数 直接 量 的 写法 很 熟悉 了 。 小 数 点 与 前 置 的 正 负 号 都 是 可 选 的 ， 数 字 
后 面 也 可 以 加 上 用 “e” 表 示 的 10 的 次 方 标识 符 ( 即 指数 表示 法 ) 。 例 如 下 面 这 些 不 同 
写法 : 

1.25 

255 .000 

255.0 | 

7.25e45 # 7.25 乘 以 10 的 45 次 方 〈 一 个 很 大 的 数 ) 

-6.5e24 # 负 6.5 乘 以 10 的 24 次 方 

# (一 个 非常 大 的 负数 ) 
-12e-24 # 负 12 乘 以 10 的 -24 次 方 


# 【一 个 非常 小 的 负数 ) 
-1.2E-23 # 另 一 种 表示 法 : 字母 5 也 可 以 是 大 写 的 


整数 直接 量 
整数 直接 量 同 样 简单 易 慌 ， 例 如 ， 


注 3: 此 处 所 谓 的 双 精 度 浮 点 数 ， 就 是 当初 用 来 编译 Perl 的 C 编 译 器 的 doub1e 类 型 。 虽 然 它 的 
大 小 可 能 因 机 器 而 异 ， 但 是 大 部 分 现代 系统 都 会 用 IEEE-745 的 格式 ， 它 能 表示 15 位 的 精 
度 ， 有 效 值 的 范围 从 1e-100 到 1e100。 

注 4; 其 实 Perl 内 部 有 些 时 候 也 会 使 用 整数 ， 只 是 不 在 程序 员 的 控制 范围 中 。 这 也 就 是 说 ， 你 
唯一 能 察觉 的 ， 就 是 程序 运行 好 像 快 了 那么 一 点 。 没 有 人 会 抱 怒 这 种 好 事 吧 ? 

注 $: 好 吧 ， 是 有 个 integer 编 译 命令 (pragma) 。 没 错 ， 但 它 已 超出 了 本 书 的 讨论 范围 。 当 
然 ， 某 些 运算 会 将 浮 点 数 强 制 转换 成 整数 ， 我 们 梢 后 会 谈 到 。 不 过 这 跟 我 们 前 面 讲 的 不 
是 一 回 事 。 
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255 
61298040283768 
最 后 一 个 数字 读 起 来 有 些 费 力 。Perl 人 允许 你 在 整数 直接 量 中 插入 下 划 线 ， 将 若干 位 数 分 
开 ， 写 成 这 样 看 起 来 就 很 清楚 了 : 
61_298_040_283_768 


这 两 种 写法 都 表示 同一 个 数字 ， 只 是 写法 不 同 而 已 。 你 也 许 会 觉得 用 逗号 分 隔 看 上 去 
更 自然 一 些 ， 但 你 要 知道 ， 喜 号 在 Perl 里 已 经 有 更 重要 的 用 途 (我 们 会 在 第 三 章 里 看 
到 ) ， 所 以 为 了 避免 产生 坊 义 ， 这 里 只 能 用 下 划 线 。 


非 十 进 制 的 整数 直接 量 
和 许多 其 他 程序 语言 一 样 ，Perl 也 允许 使 用 十 进 制 (decimal) 以 外 的 其 他 进 制 来 表示 数 
字 。 八 进 制 〈octal) 直接 量 以 0 开头 ， 十 六 进 制 (hexadecimal) 直接 量 以 0x 开 头 ， 而 二 
进 制 (binary) 直接 量 则 以 ob 开头 畦 9。 十 六 进 制 数 的 A 到 F (或 是 小 写 的 a 到 f 也 行 ) ， 代 
表 十 进 制 数 的 10 到 15 的 数字 。 例 如 ， 

0377 # 八进制 的 377， 等 于 十 进 制 的 255 

Oxff # 十 六 进 制 的 FF， 也 等 于 十 进 制 的 255 

0b11111111 。# 也 等 于 十 进 制 的 255 
虽然 这 三 个 数字 看 起 来 并 不 相同 ， 但 对 Per] 而 言 都 是 同一 个 数字 。 既 然 0xFF 和 255.000 在 
Perl 里 没有 分 别 ， 那 么 采用 哪 种 写法 最 能 说 明志 题 ， 我 们 就 该 用 哪 种 ， 这 样 对 你 自己 或 
者 该 程序 将 来 的 维护 人 员 都 有 好 处 〈 其 实 看 不 懂 代 码 逻 辑 的 可 怜 虫 很 多 ， 但 这 个 可 怜 虫 
往往 就 是 你 自己 : 在 三 个 月 之 后 ， 你 可 能 完全 记 不 起 当时 为 什么 要 这 么 写 ) 。 


非 十 进 制 直接 量 的 长 度 超过 4 个 字符 时 ， 读 起 来 可 能 会 有 些 困 难 。 因 此 Perl 同 样 容 许 在 这 
些 直 接 量 中 使 用 下 划 线 ， 分 开 后 读 起 来 更 容易 些 : 


0x1377_08B77 
0x50_65_72_7C 


注 6: “前 置 堆 (leading zero) ”的 表示 法 只 对 直接 量 有 效 一 一 不 能 用 于 字符 事 到 数字 的 自动 
转换 ， 关 于 这 一 点 我 们 稍 后 会 在 本 章 的 “数字 与 字符 事 之 间 的 自动 转换 ”一 节 看 到 。 但 
你 可 以 用 oct() 和 hex() 这 两 个 内 置 函 数 ， 把 看 起 来 像 八 进 制 或 十 六 进 制 的 直接 量 转 换 成 
数字 。 虽 然 没 有 用 来 转换 二 进 制 直接 量 的 bin() 函 数 ， 但 是 oct() 可 以 接受 以 0b 开 头 的 字 
符 事 。 
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数字 操作 符 


Perl 提 供 了 各 种 常见 的 数字 运算 操作 符 ， 比 如 加 法 、 城 法 、 乘 法 、 除 法 等 等 。 请 看 示例 : 


243 ## 2 加 上 3， 得 5 

5.1-2.4 ## 5.1 减 去 2.4， 得 2.7 

3#12 # 3 乘 以 12， 得 36 

1472 # 14 除 以 2， 得 7 

10.2/0.3 # 10.2 除 以 0.3， 得 34 

10/3 # 总 是 按 浮 点 类 型 进行 除法 运算 ， 所 以 得 3.3333333.. 


Perl 还 支持 取 模 (modxiu) 操作 符 (%) 。 表 达 式 10%3 的 结果 是 1， 也 就 是 10 除 以 3 的 余 
数 。 取 模 操作 符 先 取 整 然后 再 求 余 ， 所 以 10.5%3.2 和 10%3 的 计算 结果 是 相同 的 | 愤 1。 另 
外 ，Perl 也 提供 类 似 FORTRAN 语 言 的 乘 禾 (exponentiarion) 操作 符 ， 满 足 了 许多 Pascal 和 
C 用 户 的 心愿 。 乘 寡 操 作 符 以 双星 号 表示 ， 比 如 2#+*3 代 表 2 的 3 次 方 ， 计 算 结果 为 8 星 8。 此 
”外 还 有 一 些 列 的 数字 操作 符 ， 我 们 会 在 之 后 用 到 时 再 做 介绍 。 


字符 串 


字符 串 就 是 一 个 字符 序列 ， 比 如 hel1o 或 者 g 克 ov 。 字 符 串 可 以 各 种 字符 任意 组 合 而 、 
成 圭 9%1。 最 短 的 字符 串 不 包含 任何 字符 ， 所 以 也 叫做 空 字符 串 。 最 长 的 字符 串 的 长 度 没 
有 限制 ， 它 甚至 可 以 填 满 所 有 内 存 (与 此 同时 你 也 无 法 再 对 它 进行 任何 操作 ) 。 这 符合 
Perl 尽 可 能 遵循 的 “无 内 置 限 制 (nobuilt-inlimits) ”的 原则 。 字 符 串通 常 是 由 可 输出 的 
字母 、 数 字 及 标点 符号 组 成 ， 其 范围 介 于 ASCII 编 码 的 32 到 126 之 间 。 不 过 ， 因 为 字符 串 
能 够 包含 任何 字符 ， 所 以 可 用 它 来 创建 、 扫 撒 或 操控 二 进 制 数据 ， 这 是 许多 其 他 工具 语 
言 望 侍 莫 及 的 。 比 如 ， 你 可 以 将 一 个 图 形 文件 或 编译 过 的 可 执行 文件 读 进 Perl 的 字符 串 
变量 ， 修 改 它 的 内 容 后 再 写 回 去 。 


Perl 完 全 支持 Unicode， 所 以 在 字符 串 中 可 以 使 用 任意 一 个 合法 的 Unicode 字 符 。 不 过 由 


于 Perl 的 历史 原因 ， 它 不 会 自动 将 程序 源 代码 当 作 Unicode 编 码 的 文本 文件 读 和 人， 所 以 如 
果 你 想 要 在 源 代码 中 使 用 Unicode 书 写 直接 量 的 话 ， 得 手工 加 上 utf8 编 译 指令 吐 !01， 


注 7: 要 注意 的 是 ， 进 行 取 模 运算 时 ， 如 果 其 中 一 边 或 两 边 部 是 负数 ， 则 不 同 的 Per 版 本 可 能 会 
得 出 不 同 的 结果 。 


注 8: 一 般 来 说 ， 你 不 能 计算 负数 的 负数 次 方 。 数 学 极 客 〈geek) 部 知道 ， 这 样 算出 来 的 结果 
将 会 是 复数 〈complex number) 。 如 果 要 使 用 复数 的 话 ， 必 须 借 助 Math: :Complex 模 块 。 


注 9: 和 C 或 C++ 语言 不 同 ， 空 字符 (NUL) 在 Perl 里 并 没有 特殊 意义 。Perl 会 另行 记 住 字 符 串 
的 长 度 ， 而 不 是 用 空 字符 来 表示 字符 串 的 结尾 。 


注 10: “最 好 养 成 习惯 始终 加 上 这 身 ， 除 非 有 明确 原因 指出 不 该 这 么 做 。 
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use utf8; 


对 于 本 书后 续 的 章节 ， 我 们 都 假设 你 使 用 这 条 编译 指令 。 对 有 些 代码 来 说 实际 上 没 啥 影 
响 ， 不 过 要 是 你 看 到 源 代码 中 出 现 ASCII 字 符 范 围 以 外 的 字符 ， 则 说 明 必 须 加 上 这 条 编 
译 指令 。 此 外 ， 你 还 得 确保 以 UTEF-8 编 码 的 方式 保存 文件 。 如 果 之 前 跳 过 了 前 言 中 有 关 
Unicode 的 建议 说 明 的 话 ， 现 在 不 妨 去 读 一 下 附录 C 中 更 多 与 Unicode 相 关 的 内 容 。 


和 数字 一 样 ， 字 符 串 也 有 直接 量 记 法 ， 也 就 是 Perl 程 序 中 字符 串 的 书写 方式 。 字 符 串 直 
接 量 有 两 种 不 同形 式 : 单 引 号 内 的 字符 串 和 双 引 号 内 的 字符 串 。 


单 引 号 内 的 字符 串 直 接 量 

单 引 号 内 的 字符 串 直 接 量 (single-guoted string 1iteral) 指 的 是 一 对 单 引 号 (') 园 引 的 
一 串 字符 。 前 后 两 个 单 引 号 并 不 属于 字符 串 的 内 容 ， 它 们 只 是 用 来 让 Perl 识 别 字符 串 的 
开头 与 结尾 。 除 了 单 引 号 和 反 斜 线 字符 外 ， 单 引号 内 所 有 字符 都 代表 它们 自己 (包括 换 
行 符 ， 如 果 该 字符 串 表 示 多 行 的 数据 的 话 ) 。 要 表示 反 斜 线 字 符 本 身 ， 需 要 在 这 个 反 和 斜 
线 字 符 前 再 加 一 个 反 斜 线 字 符 表 示 转 义 ; 要 表示 单 引 号 本 身 时 ， 同 样 在 单 引 号 前 加 一 个 
反 和 斜 线 字 符 表 示 转 义 。 来 看 看 具体 的 例子 ， 


"fred # 总 共 4 个 字符 : f、T、e 和 d 
“barney # 总 共 6 个 字符 

3 # 空 字符 串 〈 没 有 字符 ) 
”36o8 党 # 某 些 “ 宽 ”Unicode 字 符 


"DonN't let an aposttrophe end this string pTematurely1 
"the last character is a backs1lash: \\ 
"hello\n' ”# hello 后 面 接着 反 斜 线 和 字母 n 


"hel1o 
theze' # hello、 换 行 符 、there (总 共 11 个 字符 ) 


NANV # 单 引 号 紧 接 着 反 昏 线 〈 总 共 2 个 字符 ) 


请 注意 ， 单 引号 内 的 \n 并 不 是 换行 符 ， 而 是 表示 字面 上 的 两 个 字符 : 反 和 斜 线 和 字母 n。 
只 有 在 反 和 斜 线 后 面 接续 单 引 号 或 者 反 斜 线 时 ， 才 表示 转 义 。 


双 引 号 内 的 字符 串 直接 量 

双 引 号 内 的 字符 串 直 接 量 (dowple-guoted string jieral) 同样 也 是 字符 串 序 列 ， 只 不 过 这 
次 换 成 双 引号 表示 首尾 。 不 过 双 引 号 中 的 反 斜 线 更 为 强大 ， 可 以 转 义 许 多 控制 字符 ， 或 
是 用 八进制 或 十 六 进 制 写法 来 表示 任何 字符 。 还 是 来 看 一 些 具体 例子 


“barney” # 和 "baxrney ' 写法 一 样 的 效果 

“hello worldAn” # hellowor1d， 后 面 接着 换行 符 

"The Jast character of this stTing is 3a quote maxk: \ 
"Coke\tsprite" # coke、 制 表 符 〈tab) 和 Spirite 
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"NAX{2668j” # Unicode 中 名 为 HOT SPRINGS 的 字符 的 代码 点 〈code point) 


请 注意 ， 对 Perl 来 说 双 引 号 内 的 字符 串 直 接 量 "barney" 和 单 引 号 内 的 字符 串 直 接 量 
'barney' 是 相同 的 ， 都 是 代表 那 6 个 字符 组 成 的 字符 串 。 这 和 前 面 提 到 的 数字 直接 量 的 
情况 相 类 似 ，0377 只 不 过 是 255.0 的 另 一 种 等 效 写 法 。 哪 种 写法 更 为 自然 流畅 ， 能 表示 实 
际 意 义 ， 就 可 以 选择 哪 种 方式 ，Perl 给 你 这 样 的 自由 。 一 般 来 说 ， 要 通过 反 斜 线 转 义 表 
示 换 行 符 〈\n) 那样 的 特殊 字符 的 话 ， 就 该 用 双 引 号 书写 直接 量 。 





反 斜 线 后 面 跟 上 不 同 字符 ， 可 以 表示 各 种 不 同 的 意义 〈 一 般 我 们 把 这 种 借助 反 斜 线 组 合 
表示 特殊 字符 的 方法 称 作 反 和 斜 线 转 义 ) 。 在 双 引 号 内 的 字符 串 直 接 量 内 允许 使 用 的 比较 
完整 的 转 义 字符 清单 如 表 2-1 所 示 。 


表 2-1: 双 引 号 内 字符 串 的 反 斜 线 转 义 


组 合 意义 

\n 换行 

NT 回 车 

\t 水 平 制 表 符 

\ 换 页 符 

\b 退 格 

\a 系统 响 铃 

\e Esc (ASCII 编 码 的 转 义 字符 ) 


\007 八进制 表示 的 ASCII 值 (此 例 中 007 表 示 系 统 响 铃 ) 
\X7f 十 六 进 制 表示 的 ASCII 值 (此 例 中 7f 表 示 删 除 键 的 控制 代码 ) 
\x{2744} 十 六 进 制 表示 的 Unicode 代 码 点 (这 里 的 U+2744 表 示 直 花形 状 的 图 形 字符 ) 


N\cC 控制 符 ， 也 就 是 Control 键 的 代码 (此 例 表示 同时 按 下 Ctrl 键 和 C 键 的 返回 码 ) 
\\ 反 斜 线 

\ 双 引号 

\1 将 下 个 字母 转 为 小 写 的 

\L 将 它 后 面 的 所 有 字母 都 转 为 小 写 的 ， 直 到 \E 为 止 

Wu 将 下 个 字母 转 为 大 写 的 

NU 将 它 后 面 的 所 有 字母 都 转 为 大 写 的 ， 直 到 \E 为 上 

\Q 相当 于 把 它 到 \E 之 间 的 非 单词 (non word) 字符 加 上 反 斜 线 转 义 

NE 结束 \L、 \ 和 \0 开 始 的 作用 范围 





双 引 号 内 字符 串 的 另 一 种 特性 称 为 变量 内 揪 (yariable interpolated) ， 这 是 指 在 使 用 字 
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符 串 时 ， 将 字符 串 内 的 变量 名 称 蔡 换 成 该 变量 当前 的 值 。 因 为 我 们 还 没有 正式 介绍 什么 
是 变量 ， 所 以 这 部 分 内 容 稍 后 再 谈 。 


字符 串 操作 符 

字符 串 可 以 用 .操作 符 〈 没 错 ， 就 是 句点 符号 ) 连接 起 来 。 两 边 的 字符 串 都 不 会 因此 操 
作 而 被 修改 ， 就 像 243 的 运算 不 会 改变 ?或 3 一 样 。 运 算 后 得 到 一 个 更 长 的 字符 趾 ， 可 以 继 
续 用 于 其 他 运算 或 赋予 某 个 变量 。 来 着 具体 例子 ， 


shello"” "world" # 等 同 于 "helloworld" 
"hel1lo”.。””。 "world # 等 同 于 'hello woz1ld' 
hello wor1d” 。"\n" # 等 同 于 "hello worldvn" 


要 注意 的 是 ， 连接 运算 必须 显 式 使 用 连接 操作 符 〈《concatenation opPerator) ， 而 不 像 其 
他 某 些 语言 只 需 把 两 个 字 - 符 串 放 在 一 起 就 行 


还 有 个 比较 特殊 的 字符 串 重 复 操作 符 (siring repetlition operator) ， 它 其 实 就 是 一 个 
小 写字 母 x。 此 操作 符 会 将 其 左边 的 操作 数 (也 就 是 要 重复 的 字符 串 ) 与 它 本 身 重复 连 
接 ， 重 复 次 数 则 由 右边 的 操作 数 ( 某 个 数字 ) 指定 。 来 看 具体 例子 ， 


"fred" x 3 # 得 *fredfredfred 
"barney”Xx 〔〈4+1) 得 "barney" x 5, 亦 即 ” 2 
5 X 4.8 # 本 质 上 就 是 "5"x4， 所 以 得 "5555” 


最 后 一 个 例子 有 必要 详 加 说 明 。 因 为 重复 操作 符 的 左 操作 数 必 然 是 字符 串 类 型 ， 所 以 数 
字 5 在 进行 重复 操作 前 ， 先 被 转换 成 单字 符 的 字符 串 "5" (具体 转换 规则 稍 后 会 提 到 ) ， 
然后 这 个 新 字符 串 被 重复 了 4 次 ， 生 成 售 有 4 个 字符 的 新 字符 串 5555。 注 意 ， 如 果 我 们 将 
操作 数 对 调 ， 亦 即 写 成 4x5 这 样 ， 结 果 会 是 得 到 重复 5 次 的 字符 4， 也 就 是 44444。 这 说 明 
字符 串 重 复 操 作 并 不 满足 交换 (commnutative) 律 。 


重复 次 数 〈 右 操作 数 ) 在 使 用 前 会 先 取 整 〈4.8 变 成 4) 。 重 复 次 数 小 于 1 时 ， 会 生成 长 度 
为 零 的 空 字 符 串 。 


数字 与 字符 串 之 间 的 自动 转换 

通常 Perl 会 根据 需要 ， 自 动 在 数字 和 字符 串 之 间 进 行 类 型 转换 。 那 它 究 竟 是 如 何 知 道 需 
要 数字 还 是 字符 串 呢 ? 这 完全 取决 于 操作 符 。 如 果 操 作 符 〈 比 如 +) 需要 的 是 数字 ，Perl 
就 会 将 操作 数 视 为 数字 ， 在 操作 符 (比如 .) 需要 字符 串 时 ，Perl 便 会 将 操作 数 视 为 字符 
串 。 因 此 ， 你 不 必 担 心 数 字 和 字符 串 间 的 差异 ， 只 管 合理 使 用 操作 符 ，Perl 会 自动 完成 
剩 下 的 工作 。 


对 数字 进行 运算 的 操作 符 (比如 乘 靶 ) 如 果 遇 到 字符 串 类 型 的 操作 数 ，Perl 会 自动 将 字 


本 
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符 串 转换 成 等 效 的 十 进 制 浮 点 数 进行 运算 。 因 此 "12"*#"3" 的 结果 会 是 36。 字 符 串 中 非 数 
“ 字 的 部 分 (以 及 前 置 的 空白 符号 ) 会 被 略 过 ， 所 以 "12fred34" * ”3" 也 会 得 出 356， 而 不 
会 出 现任 何 警告 信息 竺 上 0。 在 最 极端 的 情形 下 ， 完 全 不 含 数字 的 字符 串 会 被 转换 成 零 。 
比如 把 "fred" 当 成 数字 来 用 就 属于 这 种 情况 。 


“前 置 零 ” 的 技巧 只 对 直接 量 有 效 ， 不 能 用 于 字符 串 的 自动 转换 ， 自 动 转换 总 是 按照 十 
进 制 数字 来 处 理 的 吐 I。 ， 


0377 。” # 十 进 制 数 字 255 的 八进制 写法 
“0377” # 会 转换 成 十 进 制 数字 377 


同样 地 ， 需 要 字符 串 的 操作 符 〈 比 如 字符 串 连 接 符 ) 意外 得 到 数字 时 ， 该 数字 就 会 被 转 
换 为 形式 相同 的 字符 串 。 比 如 要 把 字符 串 z 与 “5 乘 以 7 的 结果 ”相连 接 考 131， 写 起 来 非 
常 简单 ; 


"2Z” .5*# 了 7 了 # 等 同 于 "Z".35， 得 "235” 


总 的 来 说 ， 大 多 数 时 候 你 根本 不 必 关 心 数 字 和 字符 串 的 区 别 ，Perl 会 自动 完成 转换 数据 
的 工作 硅 14 


Perl 的 内 置 警告 信息 
当 发 现 程 序 有 些 不 对 劲 时 ， 可 以 让 Perl 发 出 警告 。 从 Perl 5.6 开 始 ， 我 们 可 以 通过 编译 
指令 开启 警告 功能 (但 请 注意 ， 需 要 兼顾 早期 版 本 用 户 时 就 不 能 用 这 种 方式 ) 星 1 


#1VUSTVbin/ypezl 
Use watrningsj 


注 11;， ”除非 你 要 求 Perl 显 示警 告 信息 ， 精 后 我 们 就 会 提 到 有 关 警 告 信息 的 处 理 。 

注 12: 。 碰 到 以 八进制 ， 或 者 十 六 进 制 ， 划 至 二 进 制 写法 表示 的 字符 事 时 ， 得 用 专门 的 转换 末 数 
oct() 或 hex() 将 其 转换 成 对 应 数字 。 详 细 信 息 请 参阅 第 252 页 的 “ 非 十 进 制 数字 字符 串 的 
转换 ”一 节 。 

注 13: ”我 们 很 快 就 会 提 到 优先 级 和 括号 。 

注 14:， 如 果 担 心 效率 的 话 ， 大 可 放心 ，Perl 通 常会 记 住 第 一 炊 转换 的 结果 ， 所 以 实际 的 转换 只 是 
进行 一 次 而 已 。 

注 15: ”实际 上 ，warnings 编 译 指令 能 够 指定 代码 的 作用 范围 ， 详 细 信息 可 以 参阅 Perliexrwarn 文 
档 。Wwarnings 比 -W 腕 灵活 ， 它 可 以 选择 只 对 文件 中 使 用 了 该 编译 指令 的 部 分 代码 开局 警 
告 功 能 ， 而 -W 选 项 则 不 加 区 分 ， 对 整个 程序 中 涉及 的 所 有 代码 部 开 启 警 告 功能 。 
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也 可 以 在 命令 行 上 使 用 -w 选 项 对 要 运行 的 程序 开启 警告 功能 0 
$ per1 -w my_program 

也 可 以 在 shebang 行 上 指定 命令 行 选项 : 
#1/usr/binyperl-w 


即便 是 在 非 Unix 系 统 上 也 可 以 这 么 用 ， 这 和 加 不 加 Perl 的 具体 路 径 没关系 ， 一 般 都 会 写 
成 ， 
#jpeTl -W 


现在 ， 如 果 你 把 '12fred34' 当 数 字 用 ，Perl 就 会 发 出 警告 : 


Argument "12fred34”isn't numeIric 


虽然 发 出 了 警告 ， 但 Peil 仍 然 会 按照 它 既 定 的 默认 规则 ， 把 非 数字 字符 串 '12fred34' 转 
换 为 12。 


当然 ， 警 告 信息 通常 是 给 程序 员 看 的 ， 而 不 是 最 终 用 户 。 要 是 连 程序 员 都 不 看 的 话 ， 
警告 信息 大 概 也 没什么 用 。 另 外 ， 警 告 信息 并 不 会 改变 程序 的 行为 ， 只 会 让 它 偶 尔 抱 
怨 几 声 。 如 果 看 不 懂 某 个 警告 信息 ， 可 以 利用 diagnostics 这 个 编译 命令 报告 更 为 详 
尽 的 问题 描述 。 在 perldiag 文 档 中 列 有 简要 警告 信息 和 详细 诊 2 该 文档 是 理解 
diagnostics 输 出 信息 的 最 佳 参考 : 

#17usT/VbinVpetJ] 

USse diagnostics; 
在 把 use diagnostics 这 个 编译 命令 加 进程 序 亨 之 后 ， 你 可 能 会 觉得 程序 启动 好 像 有 点 慢 。 
这 是 因为 程序 正在 忙 着 加 载 警告 和 详细 说 明 到 内 存 ， 准 备 好 碰 到 有 错误 或 警告 发 生 ， 就 
立即 输出 相关 的 错误 信息 。 其 实 反 过 来 看 ， 这 也 提示 了 一 种 优化 程序 的 方法 : 如 果 熟 悉 
各 种 警告 信息 的 意义 ， 就 不 必 在 运行 时 发 出 详细 的 警告 解释 ， 去 掉 use diagnostics 这 个 
编译 命令 就 会 让 程序 启动 变 快 ， 内 存 消耗 也 随 之 减少 。 (当然 ， 如 果 能 修改 好 程序 ， 让 
它 不 再 产生 烦人 的 警告 信息 ， 就 再 好 不 过 了 。 或 者 干脆 直接 关闭 警告 信息 。) 


更 进一步 ， 这 种 优化 也 可 以 通过 Per]l 的 命令 行 选项 -M 来 实现 。 与 其 每 次 修改 程序 代码 ， 
不 如 仅 在 需要 时 再 加 载 diagnostics 编 译 命令 : 


. $peT1 -NMdiagnostics /my_ PIOgTam 
Argument “12fred34”isn't numeric in addition (+) at ./my_program 1ine 17 (#1) 


注 16: ”如 果 程 序 用 到 别人 写 的 模块 ， 那 么 警告 同样 会 作用 于 这 些 模块 中 的 代码 ， 所 以 使 用 这 种 
方式 也 许 会 看 到 别人 的 代码 的 警告 。 





(W numeric) The jindicated string was fed as an argument to 
an 0perator that expecteda numezic value instead。 If you'Te 
fortunate the message will identify which operTator was So unfortunate。 


注意 警告 信息 中 出 现 的 (W numeric) ， 其 中 的 意思 是 鳌 告 级 别 属于 普通 警告 ，numeric 
的 意思 是 警告 类 型 属于 数字 操作 一 类 。 所 以 ， 看 到 这 两 条 就 知道 溢 在 问题 大 致 出 在 哪 
里 。 


随 着 后 续 深 入 介绍 ， 我 们 还 会 看 到 关于 其 他 类 型 错误 的 警告 。 不 过 请 记 住 ， 将 来 的 Perl 
也 许 会 因为 内 部 工作 机 制 的 变化 而 令 发 出 警告 的 方式 和 内 容 也 随 之 发 生变 化 。 


标量 变量 

所 谓 变 量 〈variabie) ， 就 是 存储 一 个 或 多 个 值 的 容器 的 名 称 。 而 标量 变量 ， 就 是 单单 存 
储 一 个 值 的 变量 。 后 续 章节 我 们 还 会 看 到 其 他 类 型 的 变量 ， 比 如 数组 和 哈 希 ， 它 们 都 可 
以 存储 多 个 值 。 变 量 的 名 称 在 整个 程序 中 保持 不 变 ， 但 它 所 持 有 的 值 是 可 以 在 程序 运行 
时 不 断 修改 变化 的 。 


你 大 概 猜 到 了 ， 标 量变 量 存储 的 是 单个 标量 值 。 标 量变 量 的 名 称 以 美元 符号 开头 ， 这 个 
符号 也 称 为 魔 符 (si8si) ， 然 后 是 变量 的 Perl 标 识 符 : 由 一 个 字母 或 下 划 线 开头 ， 后 接 
多 个 字母 、 数 字 或 下 划 线 。 标 识 符 是 区 分 大 小 写 的 : 变量 $Fred 和 $fred 是 两 个 完全 不 同 
的 变量 。 不 同 的 大 小 写字 母 、 数 字 以 及 下 划 线 构成 了 不 同 的 标识 符 ， 所 以 下 面 的 变量 各 
不 相同 

$name 


$Name 
$NAME 


$a_very_long_variable_that_ends_jin_1 

$a_very_lon8g_variable_that_ends_jin_2 

$A_very_Jlong_varjable_that_ends_jin_2 

$AVeryLongVariableThatEndsIn2 
Perl 并 不 限于 使 用 ASCII 字 符 作为 变量 名 。 如 果 启 用 了 utf8 编 译 指令 ， 那 么 可 用 于 表示 字 
母 或 数字 的 字符 会 多 许多 ， 所 以 拿 它们 来 作为 变量 名 也 是 可 以 的 ， 

$reEsumE 

$co6zrdinate 
Perjl 通 过 变量 标识 符 前 的 魔 符 来 区 分 它 是 什么 类 型 的 变量 。 所 以 不 管 你 取 什么 名 字 ， 都 
` 会 和 Perl 自 带 的 函数 或 操作 符 的 写法 相 种 突 。 


此 外 ，Perjl 是 通过 该 魔 符 来 判断 该 变量 的 使 用 意图 。$ 的 确切 意思 是 “ 取 单 个 东西 ” 
者 “ 取 标 量 ”。 因 为 标量 变量 总 是 存储 一 项 数据 ， 所 以 它 的 意思 就 总 是 取得 其 中 的 “ 


抒 水 
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个 ” 值 。 在 第 三 章 中 ， 和 你 会 看 到 “ 取 单 个 东西 ”的 魔 符 应 用 于 其 他 类 型 (数组 ) 变量 的 
情况 。 


给 变量 取 个 好 名 字 

一 般 来 说 ， 变 量 名 称 应 该 能 说 明 它 的 用 途 和 意义 。 比 如 变量 $r ， 天 知道 它 代表 什么 ， 
但 $Line_Jength 就 不 同 了 ， 一 看 就 知道 表示 行 宽 。 如 果 变 量 只 是 在 接 下 来 的 两 三 行 里 用 
到 ， 那 么 类 似 $n 这 样 的 简短 名 称 倒 也 无 妨 ， 但 用 于 整个 程序 范围 的 变量 就 该 取 个 比较 有 
意义 的 能 说 明 问题 的 名 字 许 17。 


同样 的 道理 ， 适 当 补 充 下 划 线 也 能 改善 变量 名 的 可 读 性 ， 尤 其 是 在 代码 维护 者 的 母语 和 
你 的 不 同 的 情况 下 。 举 例 来 说 ，$super_bow1 这 个 名 称 就 比 $superbow1l (超级 杯 ) 要 好 ， 
因为 后 者 也 可 以 理解 为 gsuperb_ow1 (雄伟 的 猫 头 庵 ) 。 再 比如 $stopid， 它 的 意思 到 底 
. 是 $sto_pid《 存 储 某 个 进程 的 进程 号 ? ) 、$s_to_pid (转换 什么 东西 为 进程 号 ? ) 、 
$stop_id 〈 某 种 “停止 ”对 象 的 代号 ? ) ， 或 者 仅仅 是 把 条 蛋 (stupid) 拼 错 了 ? 


Per 程序 里 面 的 大 部 分 变量 名 称 都 习惯 使 用 全 小 写 ， 正 如 你 在 本 书 中 看 到 的 例子 一 
样 。 只 有 少数 几 种 情况 中 才 会 用 到 大 写字 母 。 而 使 用 全 大 写 的 〈 比 如 $ARGV) 变量 一 
般 都 是 表示 特殊 意义 的 变量 。 如 果 变 量 名 不 止 一 个 单词 ， 有 人 喜欢 用 下 划 线 分 开 ， 如 
$underscores_are_coo1， 也 有 人 喜欢 用 $giveMeInitialCaps 这 种 风格 。 怎 么 选择 是 你 的 
喜好 ， 不 要 混用 就 可 以 了 畦 !1。 当 然 你 也 可 以 使 用 全 部 大 写 的 变量 名 ， 但 这 么 一 来 就 有 
可 能 和 Perl 保 留 的 特殊 变量 的 名 称 相 冲突 。 所 以 最 好 还 是 不 要 用 全 大 写 的 名 称 攻 19。 


当然 ， 名 称 的 好 坏 其 实 对 Perl 来 说 并 无 差别 。 你 可 以 把 程序 中 最 重要 的 三 个 变量 取 名 为 
$000000000、$00000000 和 $000000000，Perl 不 会 觉得 这 是 种 挑战 一 一 但 拜托 不 要 找 我 们 
来 帮 你 维护 程序 ! 


标量 的 赋值 

对 标量 变量 最 常见 的 操作 就 是 赋值 (assignnent) 了 ， 也 就 是 将 某 个 值 存 进 变量 中 。Perl 
的 赋值 操作 符 为 等 号 《这 和 其 他 程序 语言 差不多 ) ， 等 号 的 左边 是 变量 名 称 ， 右 边 为 某 
个 表达 式 ， 对 表达 式 求 值 的 结果 作为 赋予 变量 的 值 。 来 看 具体 的 例子 : 


注 17: “你 之 所 以 苑 荡 自 己 的 程序 ， 无 非 是 因为 你 创造 了 它 。 对 你 来 说 ，$SsT1y 的 总 能 是 显 而 
易 见 的 ， 但 对 其 他 人 来 讲 就 不 是 那么 回 事 了 。 


注 18: 在 peristyle 文 档 中 有 一 些 关 于 变量 命名 的 建议 ， 不 妨 读 一 下 。 
注 19: “可 以 到 perlyar 文 档 中 查阅 所 有 Perl 特 殊 变 量 的 名 称 。 





$fred = 17; # 将 $fred 的 值 设 为 17 

$barney = “hel1o';  # 将 $barney 的 值 设 为 5 个 字符 组 成 的 字符 串 "hel1o， 

$barney = $fred+3; # 将 $barney 设 为 $fred 当 前 值 加 上 3 后 的 结果 ， 即 20 

$barney = $barney*2; # $barney 现 在 被 设 成 $bazrney 当 前 值 乘 以 2 后 的 结果 ， 即 40 
请 注意 ， 最 后 一 行 中 $barney 变 量 出 现 了 两 次 : 第 一 次 是 取 值 (在 等 号 右 方 的 表达 式 
中 ) ， 第 二 次 是 赋值 (在 等 号 左 方 ) ， 表 示 要 将 右 方 表达 式 的 运算 结果 存 到 该 变量 中 。 
这 样 写 不 但 合法 、 安 全 ， 而 且 还 十 分 常见 。 事 实 上 ， 正 因为 这 种 用 法 太 常 见 见 了 ， 我 们 还 
有 种 更 简便 的 书写 方式 ， 请 看 下 节 。 


双 目 赋值 操作 符 
我 们 经 常会 用 到 类 似 $fred = $fred + 5 这 种 形式 的 表达 式 〈 同 样 的 变量 出 现在 赋值 操 
作答 的 两 边 ) ， 于 是 Perl 〈( 同 C 或 Java 语 言 一 样 ) 提供 了 更 新 变量 内 容 的 简写 方式 一 一 双 
目 赋 值 操 作 符 (bipnary assignmenr operator) 。 儿 乎 所 有 用 来 求 值 的 双 目 操作 符 都 可 以 接 
上 等 号 ， 成 为 相应 的 双 且 赋值 操作 符 。 比 如 下 面 这 两 行 其 实 是 等 效 的 : 


，$fred = $fred + 5;  # 不 使 用 双 目 赋值 操作 符 
$fred += 5; # 使 用 双 且 赋值 操作 符 


以 下 这 两 行 也 是 等 效 的 : 


$barney = $barney * 3; 

$barzney *= 3; 
以 上 的 例子 里 ， 双 目 赋 值 操作 符 都 是 以 某 种 方式 直接 修改 变量 的 值 ， 而 非 对 表达 式 求 什 
后 覆盖 原 变量 值 。 


另 一 个 常见 的 双 目 赋值 操作 符 是 由 字符 串 连 接 操作 符 (.) 改进 而 成 的 追加 操作 符 
(.=) : 


$str = $stzr.“"";  # 在 $str 末 尾 追加 一 个 空格 字符 

$str .= "9 # 用 追加 操作 符 做 同样 的 事 
几乎 所 有 的 双 目 操作 符 都 可 以 这 么 用 。 比 如 ， 乘 宕 操作 符 可 以 改 成 *k=， 所 以 $fred#k#=3 
的 意思 就 是 说 ，“ 将 $fred 里 的 值 自 乘 3 次 《也 就 是 取 三 次 方 ) ， 再 存 回 $fred” 


用 print 输 出 结果 

一 般 我 们 都 想 要 程序 输出 些 什 么 信息 来 ， 否 则 ， 也 许 会 有 人 以 为 它 什 么 事 都 没 做 。 
pzint 操 作 符 就 是 用 来 完成 这 项 任务 的 它 可 以 接受 标量 值 作为 参数 ， 然 后 不 经 修饰 地 
将 它 传送 到 标准 输出 〈standard output) 。 啤 非特 别 指定 ， 否 则 一 般 默 认 的 “标准 输出 ” 
指 的 就 是 终端 屏幕 。 例 如 ， 
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print “hello world\n"; # 输出 hello world， 后 面 接着 换行 符 
print“The answer is”; 
przint 6 *# 7; 
print ”".Nn 
你 也 可 以 用 print 输 出 一 系列 用 喜 号 隔 开 的 值 ; 


print “The answer js "，6* 7， .An 


这 实际 上 就 是 一 个 列表 (iist) ， 但 我 们 现在 还 没 提 到 列表 ， 稍 后 再 作 说 明 。 


字符 串 中 的 标量 变量 内 插 

一 般 我 们 用 双 引 号 圈 引 字符 串 的 目的 ， 除 了 是 要 用 之 前 提 到 过 的 反 斜 线 转 义 外 ， 多 半 是 
为 了 使 用 变量 内 插 (yariable interpolation) 畦 201。 其 实说 白 了 ， 就 是 把 字符 串 内 出 现 的 
所 有 标量 变量 星 20 赫 换 成 该 变量 当前 的 值 。 比 如 : 


$meal =“bxrontosauIrus steak”; 
$barney =“fred ate 3a $meal"; # $baxrney 现 在 是 "fred ate 3a brontosauTus steak" 
$barney = “'fred ate a“.$mealj # 另 一 种 等 效 写 法 


正如 上 面 最 后 一 行 所 示 ， 不 用 双 引 号 也 可 以 达成 相同 效果 ， 但 用 双 引号 写 起 来 更 简便 清 
晰 。 


如果 标 量变 量 从 未 被 赋值 过 斌 ?1， 就 会 用 空 字 符 串 来 替换 ; 
$barney = "fred ate a.$meat"; # $bazney 就 会 变 成 "fred ate a" 
如 果 只 是 要 打印 这 个 变量 值 ， 则 不 必 使 用 变量 内 播 的 方式 : 


print "$fred"; # 双 引 号 是 多 余 的 
print $fredj # 这 样 写 比较 好 


在 单个 变量 两 边 加 上 引号 也 不 算 错 上 231， 不 过 这 么 写 的 话 ， 别 的 程序 员 可 能 会 在 背后 嘲 
笑 你 哦 ， 或 者 当面 嘲笑 也 说 不 定 。 变 量 内 插 又 被 称 为 双 引 号 内 插 ， 因 为 它 通 常 是 在 双 引 
号 (而 非 单 引 号 ) 里 起 作用 的 。 在 Perl 里 还 有 其 他 一 些 字符 串 内 播 的 情况 ， 具 体 细节 我 
们 稍 后 遇 到 时 会 谈 到 。 


注 20: ”这 和 数学 或 统计 学 上 的 “插值 (interpolation) ”无 关 
注 21; 除了 标量 变量 外 ， 还 有 其 他 类 型 的 变量 也 可 以 内 插 ， 我 们 稍 后 会 再 说 明 。 


注 22: ”实际 上 该 变量 拥有 一 个 特殊 的 值 Undef， 表 示 未 定义 ， 本 章 稍 后 会 详细 说 明 。 如 果 启 用 警 
告 ，Perl 会 抱 怒 在 内 插 时 使 用 未 定义 的 变量 。 
注 23: 至少， 这 会 把 变量 值 作 为 字符 事 处 理 ， 而 不 是 数字 。 只 有 极 少 数 情 况 下 需要 借助 这 种 写 
法 ,很 多 时 候 这 只 是 在 浪费 打字 时 间 。 
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“如果 要 将 美元 符号 本 身 放 进 双 引 号 内 的 字符 串 ， 可 以 在 它 前 面 用 反 斜 线 转 义 ， 以 避 开 它 
的 特殊 意义 : 


$fred =“hel]o ; 
print "The name is \$fred.\n"j # 会 输出 $ 符 号 


当然 ， 也 可 以 跳 开 这 个 变量 ， 用 串 接 的 方式 构造 新 的 字 串 : 
print 'The name is $fred” .“\n"; # 效果 相同 


进行 内 插 时 ，Perl 会 尽 可 能 使 用 最 长 且 合法 的 变量 名 称 。 要 是 你 想 在 内 插 的 值 后 面 紧 接 
着 输出 字母 、 数 字 或 下 划 线 ， 可 能 会 磁 上 麻烦 [二 24。 

当 Perl 检 查 变量 名 称 时 ， 它 会 违背 你 的 本 意 ， 将 后 面 的 字符 当 作 变 量 名 称 的 一 部 分 。 解 
决 办 法 很 简单 ， 和 shell 脚 本 一 样 ，Perl 里 面 我们 可 以 用 一 对 花 括 号 将 变量 名 围 起 来 以 
避免 歧义 。 要 不 然 ， 可 以 先 把 字符 串 拆 成 两 半 ， 再 利用 连接 操作 符 拼接 起 来 : 


4$uhat = "brontosaurus steak"”; 


$n = 3; 
print “fred ate $n $whats.N\nm"; # 不 是 steaks， 而 是 $whats 的 值 
print "fired ate $n $fwhatjs.\n" 3 # 现在 用 的 是 $what 的 值 


print "fred ate $n $what”. "s.\n";  # 另 一 种 写法 ， 但 比较 麻烦 
print "fred ate ， .$n .，”。$what."s.\n"i# 特 别 麻 烦 的 写法 


借助 代码 点 创建 字符 
有 了 时候 我 们 需要 输入 键盘 上 没有 的 那些 字符 ， 比 如 E.6.w 或 者 wx 等。 取得 这 些 字符 的 方法 
得 看 用 的 是 什么 系统 的 输入 法 或 者 哪 一 款 文本 编辑 器 。 不 过 ， 与 其 费力 寻找 字 型 输入 ， 
还 不 如 直接 键 和 人 这 些 字符 的 代码 点 (code point) 旺 21， 再 通过 chzr() 函 数 转换 成 对 应 字 
符 来 得 方便 ; 

$alef = chr( 0x05D0 ); 


$alpha = chr( hex( "03B1 ) ); 
$omega = chr( 0x03C9 ); 


反 过 来 ， 我 们 可 以 通过 ord() 国 数 把 字符 转换 为 代码 点 : 





注 24:; 另外 还 有 -一 些 可 能 会 出 问题 的 字符 。 在 标量 变量 名 称 后 面 如 果 需 要 接 上 左 方 括号 或 左 方 
括号 ， 请 在 括号 前 面 加 上 反 斜 线 。 要 是 变量 名 称 后 面 接 的 是 单 引号 或 两 个 置 号， 也 需要 
以 同样 的 方式 处 理 。 要 不 然 ， 你 也 可 以 使 用 正文 里 提 到 的 花 括号 表示 法 来 代替 。 

注 25;: Unicode 的 概念 将 员 穿 本 书 ， 所 以 我 们 一 直 会 提 到 有 关 代 码 点 (code point) 的 说 法 。 如 
果 只 是 在 ASCII 中 ， 则 只 需要 通过 表示 序数 (ordinal yalue) 的 数字 说 明 字 符 。 如 果 你 对 
Unicode 背 景 知 识 还 不 于 悉 的 话 ， 请 即刻 参阅 附录 C。 
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$code_point=ord('? “); 
通过 代码 点 创建 的 字符 同样 可 用 于 双 引 号 内 的 变量 内 揪 :， 
"$alpha$omega” 


如 果 不 预 先 创建 变量 ， 也 可 以 直接 在 双 引号 内 用 \x{]} 的 形式 表示 ， 虽 然 看 起 来 有 点 腿 
。 花 ， 但 也 还 算 方便 ， 


"NAXx{03B1}N\x{03C9}” 


操作 符 的 优先 级 与 结合 性 

在 复杂 的 表达 式 里 ， 先 执行 哪个 操作 再 执行 娜 个 操作 ， 取 决 于 操作 符 的 优先 级 。 比 如 在 
表达 式 2+3*4 中 ， 先 算 加 法 还 是 乘法 ? 如 果 先 算 加 法 ， 会 得 到 5+4， 也 就 是 20， 如 果 先 算 
乘法 〈 就 像 数学 课 里 教 的 ) ， 会 得 到 2+12， 也 就 是 14。 还 好 ，Per] 的 选择 和 一 般 的 数学 计 
算 相 同 ， 是 先 算 乘法 。 也 就 是 说 ， 乘 法 的 优先 级 高 于 加 法 。 

你 可 以 用 括号 〈 即 圆 括号 ) 来 改变 执行 优先 级 。 任 何 放 在 括号 里 的 运算 都 比 括号 外 的 优 
先 级 高 (和 数学 课 里 学 到 的 一 样 ) 。 因 此 ， 如 果真 的 想 让 加 法 比 乘法 先 计算 ， 可 以 写成 
(2+3)*4， 得 20， 当然 也 可 以 加 上 多 余 的 括号 ， 像 2+(3*4) ， 以 此 强调 乘法 比 加 法 先 计算 
的 事实 。 

在 加 法 和 乘法 的 例子 里 ， 优 先 级 相当 清楚 ， 不 言 自明 。 但 当 我 们 磁 到 像 字符 串 连 接 和 乘 
寡 计 算 时 ， 就 很 难 断 定 谁 先 谁 后 了 。 正 确 的 解决 之 道 不 外 平 参考 perlop 文 档 中 标准 的 Perl 
操作 符 优先 级 表 ， 我 们 摘 取 其 中 主要 部 分 列 于 表 2-2 中 给 261。 


表 2-2: 操作 符 的 结合 性 与 优先 级 〈 从 高 至 低 排序 ) 
结合 性 操作 符 


左 括号 ;给 定 参 数 的 列表 操作 符 
左 -> 
++ --〈 自 增 ; 自 减 ) 
右 玉 水 
右 \T>~+- ( 单 目 操作 符 ) 
左 ES 











注 26: ”给 C 程序 员 一 个 好 消息 : 所 有 同时 在 Perl 和 C 里 出 现 的 操作 符 ， 它 们 的 优先 级 和 结合 性 
都 是 相同 的 。 
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表 2-2， 操作 符 的 结合 性 与 优先 级 〔 从 高 至 低 排 序 ) 《 续 ) 
结合 性 。 操作 符 


左 六 /和 %%X 
7 + - 。( 双 目 操 作 符 ) 
左 << >> 


有 具名 的 单 目 操作 符 〈-X 文 件 测试 ，rand) 
< 人 = >= lt le gt ge (“ 不 相等 ”操作 符 ) 
= != (=> eq ne cmp〈“ 相 等 ”操作 符 ) 


左 & 
左 攻 
左 8&& 
左 | 
右 ?: (三 目 操作 符 ) 
右 = += -= .= (以 及 类 似 的 赋值 操作 符 ) 
左 ，=》> 
列表 操作 符 (向 右 结合 ) 
右 not 
左 and 
左 OF XoT 





在 这 个 表格 里 ， 任 何 操作 符 的 优先 级 都 高 于 列 在 它 下方 的 所 有 操作 符 ， 并 低 于 列 在 它 上 
方 的 所 有 操作 符 。 如 果 操 作 符 间 的 优先 级 相同 ， 则 按照 结合 性 的 规则 来 判断 。 


当 两 个 优先 级 相同 的 操作 符 抢 着 使 用 三 个 操作 数 时 ， 优 先 级 便 交 由 结合 性 解决 : 


4##3 半 2 提 4# 半 (3#k 2)， 得 4*#k 9 (向 右 结合 ) 

72 / 12 /3# (72 / 12) / 3， 得 6/3， 得 2 (向 左 结合 ) 

36 / 6+ 3 ## (36/6)*3， 得 18 
在 第 一 个 例子 里 ， 因 为 *# 操 作 符 是 向 右 结 合 的 ， 所 以 隐 含 的 括号 便 放 在 右边 ， 而 * 和 /是 
向 左 结合 的 ， 因此 隐 含 的 括号 便 放 在 左边 。 


那么 ， 是 不 是 该 把 优先 级 表 背 下 来 呢 ? 不 ! 没 人 会 这 么 做 。 要 是 记 不 起 顺序 又 懒得 查 
表 ， 直 接 用 括号 明确 就 是 了 。 上 毕竟， 要 是 你 在 没有 括号 的 情况 下 会 忘记 顺序 ， 那 么 程序 
维护 员 也 会 遇 到 相同 的 麻烦 。 所 以 ， 还 是 对 他 好 一 点 吧 : 说 不 定 将 来 哪 天 ， 那 个 人 就 是 
你 自己 。 
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比较 操作 符 

对 数值 进行 比较 时 ，Perl 的 比较 操作 符 类 似 于 代数 系统 : 《、<=、==、>=、>、!=， 这 个 
是 符合 我 们 常规 四 辑 的 。 这 些 操作 符 的 返回 值 要 么 是 真 (true) ， 要 么 是 假 (1alse) ， 
我 们 将 会 在 下 一 节 详 细 讨 论 这 些 返 回 值 的 含义 。 这 些 操作 符 在 Perl 中 的 写法 和 在 其 他 
语言 中 的 写法 可 能 略 有 不 同 。 例 如 ，“ 相 等 ”用 的 是 == 而 不 是 单个 的 =， 因 为 = 在 Perl 里 
表示 变量 赋值 。 另 外 ，“ 不 相等 ”用 的 是 1=， 因 为 > 在 Perl 里 另 有 其 义 。 而 “大 于 或 等 
于 ”用 的 是 >= 不 是 =>， 因 为 后 者 在 Perl 里 也 有 别 的 意义 。 事 实 上 ， 儿 乎 每 一 种 标点 符号 
的 组 合 在 Perl 里 都 有 特定 的 用 处 。 所 以 呢 ， 如 果 哪 天 你 的 灵感 突然 告 竭 ， 就 让 猫 猫 在 键 
盘 上 走 个 几 团 ， 再 进行 调试 吧 。 


想 要 比较 字符 串 时 ，Perl1 有 一 系列 的 字符 串 比 较 操 作 符 ， 看 起 来 像 是 些 奇 怪 的 短语 : 
1t、1e、eq、ge、8gt 以 及 ne。 它 们 会 逐一 比 对 两 个 字符 串 里 的 字符 ， 判 定 它们 是 否 彼此 
相等 或 是 哪 一 个 排 在 前 面 。 请 注意 ， 字 符 在 ASCIJI 编 码 或 者 Unicode 编 码 中 的 顺序 并 不 总 
是 对 应 于 字符 本 身 意 义 上 的 顺序 。 至 于 如 何 修正 ， 可 以 参考 第 十 四 章 中 的 相关 内 容 。 
完整 的 比较 操作 符 〈 包 括 用 于 数字 及 字符 串 ) 列 在 表 2-3。 


表 2-3， 数值 与 字符 串 的 比较 操作 符 





比较 数字 字符 串 
相等 == edq 
不 等 . = ne 
小 于 《 1t 
大 于 > 人 tt 
小 于 或 等 于 《= 1e 
大 于 或 等 于 >= ge 





来 看 几 个 用 到 这 些 比 较 操 作 符 的 表达 式 ， 


35 1 =30+5 

35 == 35.0 

"35”eq “35.0”， 
"fred”]t“bazney” 
"fred” 1]t “free 
“fred” eq “fred 
"fred” eq “Fred 
1 


(当成 字符 串 来 比较 ) 


提 非 要 非 非 间 非特 
间 痊 焊 糙 寅 交 凋 这 





十 ma 

if 控制 结构 

学 会 如 何 比 较 两 个 值 后 ， 你 可 能 需要 根据 比较 结果 决定 下 一 步 流程 。Perl 和 所 有 同类 型 
的 程序 语言 一 样 ， 也 有 具备 许 条 件 语 句 控制 结构 ， 


if($name gt “fred ) { . 
print”'$name” comes after “fred” in sorted order.\n” ; 


如 果 要 在 条 件 不 符 时 做 别 的 处 理 ， 可 以 使 用 else 关 键 字 ， 


if($namegt'fred '){ . 
print "”'$name”comes after 'fred' in sorted order.An ; 
}elsef 
print ”4$name' does not come after “fITed .NAn ; 
print “Maybe it's the same String，in fact.\n"; 


条 件 语 句 中 的 代码 块 周围 一 定 要 加 上 表示 界限 的 花 括号 ， 这 点 和 C 语 言 不 同 (不 管 你 有 
没有 学 过 C) 。 你 最 好 和 上 面 一 样 ， 将 代码 块 里 的 内 容 向 里 缩 排 ， 这 样 程序 读 起 来 会 方 
便 许 多 。 如 果 你 用 的 是 专 为 程序 员 设计 的 编辑 器 (我 们 之 前 在 第 一 章 中 提 到 过 ) ， 这 类 
事情 可 以 由 它 完 成 。 


布尔 值 
其 实 ， 任 何 标量 值 都 可 以 成 为 if 控制 结构 里 的 判断 条 件 。 如 果 把 表达 式 返 回 的 真 假 值 保 
存 到 变量 中 ， 那 么 在 判断 时 可 以 直接 检查 该 变量 的 值 ， 读 起 来 也 更 方便 ， 


$is_biggerz = $name gt “fred ; 
if 《〈$is_bigger) {.,.} 


但 Perl 是 如 何 决断 给 定 值 的 真 假 呢 ? 和 其 他 语言 不 同 ，Perl 并 没有 专用 的 “布尔 
(Boolean) ”数据 类 型 ， 它 是 靠 一 些 简单 的 规则 来 判断 的 [ 注 271， 

。 ”如 果 是 数字 ，0 为 假 ， 所 有 其 他 数字 都 为 真 。 

。 ”如 果 是 字符 串 ， 空 字符 串 〈…) 为 假 ， 所 有 其 他 字符 串 都 为 真 。 

。 ”如 果 既 不 是 数字 也 不 是 字符 串 ， 那 就 先 转换 成 数字 或 字符 串 再 行 判断 星 281。 


注 27， 这 并 不 是 Perl 内 部 的 党 整 规则 ， 但 足以 让 你 用 来 进行 判断 。 
注 28: “也 就 是 说 ，undef (我 们 马上 就 会 看 到 ) 表示 假 ， 而 且 所 有 的 引用 (关于 引用 ， 我 们 在 另 
一 本 书 《Intermediate Perl》 中 有 讨论 ) 都 是 真 。 





其 实 上 面 的 规则 中 还 隐 含 着 一 个 技巧 。 字 符 串 '0' 跟 数字 0 是 同一 个 标量 值 ， 所 以 Perl 会 
将 他 们 一 视 同 仁 。 也 就 是 说 ， 字 符 串 "0 ' 是 唯一 被 当成 假 的 非 空 字符 串 。 


要 取得 任何 布尔 值 的 相反 值 ， 可 以 用 ! 这 个 单 目 取 反 操作 符 。 若 它 后 面 的 操作 数 为 真 ， 
就 返回 假 ， 若 后 面 的 操作 数 为 假 ， 则 返回 真 : 


if (! $is_bigger) { 
# 如 果 $is.biggez 不 为 真 ， 则 执行 这 里 的 代码 
} ， 


这 里 还 有 一 个 小 技巧 ， 由 于 ! 会 颠倒 真 假 值 ， 并 且 Perl 又 疫 有 专门 的 布尔 类 型 的 变量 ， 所 
以 ! 总 是 会 返回 某 个 代表 真 假 的 标量 值 。 而 数字 1 和 undef 都 是 非常 自然 的 表示 真 假 的 标 
量 值 ， 所 以 人 们 常常 喜欢 把 布尔 值 归 一 化 到 这 两 个 值 来 表示 。 转 换 过 程 只 是 刊 用 了 连续 
两 次 的 ! 反 转 操 作 ， 得 到 表示 布尔 值 的 变量 ， 

4still_ true = 11 Fred ; 

$stil1 false = 11 0; 
不 过 ， 相 关 文档 中 从 未 说 明 一 定 就 是 返回 1 或 undef， 但 我 们 党 得 将 来 也 应 该 不 会 有 变 
化 。 


获取 用 户 输入 


此 刻 ， 你 大 概 已 经 相当 好 奇 ， 该 如 何 让 Perl 程 序 读 取 从 键盘 输入 的 值 ? 最 简单 的 方式 就 
是 使 用 “ 行 输入 ”操作 符 <STDINy>[ 注 29]。 


只 要 把 <STDIN> 放 在 程序 中 希望 返回 标量 值 的 位 置 上 ，Perl 就 会 从 标准 输入 (standard 
input) 读 取 一 行文 本 (直到 换行 符 为 止 ) 。 标 准 输入 可 以 有 多 种 意义 ， 但 除非 另外 设 
定 为 其 他 输入 来 源 ， 否 则 默认 就 是 调用 程序 的 用 户 (多 半 就 是 你 ) 手边 的 键盘 。 如 果 
<STDIN> 里 没有 可 供 读 取 的 字符 (一般 都 是 如 此 ， 输 入 缓存 区 没有 任何 数据 ， 除 非 你 在 
程序 启动 期 间 预 先 打 了 一 整 行 字符 ) ，Perl 程 序 就 会 停 下 来 ， 等 待 你 输入 某 些 字符 ， 直 
到 看 见 换 和 5 符 《 即 捷 下 同 车 键 ) 为 止 


注 29: “这 其 实 是 作用 在 STDIN 文 件 句 柄 上 的 “ 行 输入 ”操作 符 ， 但 在 我 们 讨论 文件 向 帆 之 前 ( 
五 章 ) 无 法 多 做 解释 。 

注 30: 准确 地 说 ， 其 实 是 你 的 操作 系统 在 等 待 输入 ， 而 peri1 在 等 待 操 作 系 统 的 反馈 。 虽 然 因 系统 
类 型 及 配置 不 同 而 略 有 差异 ， 但 通常 都 可 以 在 按 下 回 车 键 之 前 用 退 格 键 来 修改 错字 ， 因 
为 这 时 候 还 是 操作 系统 在 处 理 ， 尚 未 转 呈 给 perl 解 释 器 。 如 果 需 要 领 外 的 输入 控制 功能 ， 
可 以 到 CPAN 上 于 载 Tezm: :ReadLine 模 块 。 
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由 <STDIN> 返 回 的 字符 串 一 般 在 末尾 都 会 带 有 换行 符 斌 30。 所 以 ， 通 过 下 面 这 段 代码 ， 
我 们 可 以 看 到 实际 发 生 的 情况 : 
$lLine = <STDIN>; 
if ($line eq "nm ) 1 
print "That was just a blank linelvn* 


} else { 
pzint“That line of input was: $line”; 


不 过 实际 编写 代码 时 ， 很 少 需要 保留 末尾 换行 符 ， 所 以 人 们 常常 会 用 chomp() 操 作 符 去 
掉 它 。 


chomp 操 作 符 
乍 看 之 下 ，chomp() 操 作 符 的 用 途 好 像 太 过 简单 专 一 :只 能 作用 于 单个 变量 ， 且 该 变 量 
的 内 容 必 须 为 字符 串 ， 如 果 该 字符 串 末 尾 是 换行 符 ，chomp() 的 任务 就 是 去 掉 它 。 差 不 
多 这 就 是 它 所 有 的 工作 了 。 比 如 : 

$text = "a line of text\n"; # 或 者 从 <STDIN> 读 进来 

chomp($text); # 去 除 行 末 的 换行 符 
其 实 它 还 是 非常 有 用 的 ， 你 以 后 写 的 每 个 程序 几乎 都 少不了 它 。 如 上 所 示 ， 处 理 字 符 串 
变量 时 ， 它 是 去 除 行 末 换行 符 的 最 佳 方式 。 事 实 上 ，chomp() 还 有 一 种 取 巧 的 用 法 ， 因 
为 PerlI 有 一 条 规则 ; 任何 需要 变量 的 地 方 ， 都 可 以 用 赋值 运算 表达 式 代 替 。 实 际 上 Perl 会 
先 做 赋值 运算 ， 然 后 返回 赋值 后 的 变量 ， 所 以 chomp() 最 常见 的 用 法 就 是 连用 : 

chomp (4text = <STDIN>); # 读 和 文字， 略 过 最 后 的 换行 符 

$text = “STDIN>; # 做 同样 的 事 …… 

chomp($text); 提 却 分 成 两 步 
乍 看 之 下 好 像 采 用 合并 方式 的 chomp() 写 起 来 并 不 轻松 ， 反 而 显得 更 复杂 ! 如 果 把 它 看 
作 两 次 操作 〈 读 取 一 行文 字 ， 再 对 它 做 chomp()) ， 那 么 分 两 步 写 确实 比较 自然 。 但 如 


果 将 它 看 作 一 次 操作 〈 只 读 取 文 字 ， 不 含 换行 符 ) ， 那 么 合并 的 写法 就 更 自然 了 。 许 多 
Perl 程 序 员 都 倾向 于 使 用 这 种 写法 ， 所 以 现在 你 也 该 开始 习惯 起 来 。 


其 实 ，chomp() 本 质 上 是 函数 。 而 作为 一 个 函数 ， 它 就 有 自己 的 返回 值 。chomp() 函 数 的 
返回 值 是 实际 移 除 的 字符 数 。 这 个 数字 几乎 没有 用 处 : 


注 31: “这 里 有 个 例外 ， 那 就 是 标准 输入 流 在 读 入 行 期 间 突 然 中 止 了 。 可 是 ， 不 以 换行 符 结尾 的 
文件 当然 不 能 算是 正常 的 文本 文件 1 
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$food =《STDIN> ; 
$betty = chomp $food; # 会 得 到 返回 值 1 一 一 不 过 我 们 早 就 知道 了 ! 





正如 你 所 见 ， 使 用 chomp() 时 ， 可 以 加 上 括号 ， 也 可 以 不 加 。 这 是 Perl 的 另 一 项 惯例 ; 除 
非 去 掉 括号 会 改变 表达 式 的 意义 ; 否则 括号 可 以 省 略 。 


如 果 字 符 串 后 面 有 两 个 以 上 的 换行 符 星 25，chomp() 仅 仅 删除 一 个 ， 如 果 结 尾 处 没有 换 
行 符 ， 它 什么 也 不 做 ， 直 接 返 回 零 。 


while 控 制 结构 


Perl 和 大 部 分 用 来 实现 算法 的 语言 一 样 ， 也 有 好 几 种 循环 结构 星 3。 在 while 循 环 中 ， 只 
要 条 件 持续 为 真 ， 就 会 不 断 执行 代码 块 ; 





$count = 0) 
while ($count 《 10) 二 

$count += 2; 

print “count is now $count\n"j; # 依次 打印 值 2 4 6 8 10 
】} 


这 里 的 真 假 值 与 之 前 提 到 的 if 条 件 测试 里 的 真 假 值 定义 相同 。 代 码 块 外 围 的 花 括号 也 和 
if 控制 结构 的 一 样 必 不 可 少 。 条 件 表 达 式 在 第 一 次 执行 代码 块 之 前 就 会 被 求 值 ， 本 
果 它 一 开始 就 为 假 ， 里 面 的 循环 就 会 被 直接 略 过 。 


undef 值 


如 果 还 没 帕 值 就 用 到 了 某 个 标量 变量 ， 会 有 什么 结果 呢 ? 答案 是 ， 不 会 发 生 什 么 大 不 
了 的 事 ， 也 绝对 不 会 让 程序 中 止 运 行 。 在 首次 赋值 前 ， 变 量 的 初始 值 就 是 特殊 的 undef 
(未 定义 ) 值 ， 它 在 Perl 里 的 意思 仅仅 是 : 这 里 空 无 一 物 一 一 走 开 、 走 开 。 如 果 你 想 把 
这 个 “ 空 无 一 物 ” 当 成 数字 使 用 ， 它 就 会 表现 得 像 零 ， 如 果 当 成 字符 串 使 用 ， 它 就 会 表 
殉 得 像 空 字符 串 。 但 undef 既 不 是 数字 也 不 是 字符 串 ， 它 完全 是 另 一 种 类 型 的 标量 值 。 


既然 un def 作 为 数字 时 会 被 视 为 零 ， 我 们 可 以 很 容易 地 构造 一 个 数字 累加 器 ， 它 在 开始 


注 32: “如 果 是 逐 行 读 取 输 入 的 ， 就 永远 不 会 发 生 这 种 情况 。 不 过 ， 假 如 我 们 把 输入 分 珊 符 
($/) 设 成 换行 符 以 外 的 值 ， 或 者 使 用 read 函数 读 入 一 连 事 指定 长 度 的 字符 事 ， 又 或 者 
操作 手动 拼接 起 来 的 字符 事 时 ， 就 有 可 能 碰 到 连续 两 个 换行 符 的 情况 。 

. 注 33: 任何 程序 员 都 会 不 小 心 写 出 无 限 循 环 的 可 序 。 如 果 你 不 境 碰 上 这 种 情况 ， 一 般 结 束 这 个 
程序 的 进程 就 可 以 了 ， 就 像 结束 系统 上 的 其 他 普通 进程 一 样 。 如 果 它 还 在 前 端 运 行 ， 一 
般 核 下 Control+C 就 可 以 停止 程序 运行 。 至 于 其 他 方法 ， 请 查阅 操作 系统 的 相关 说 明 。 
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时 是 空 的 ， 


# 累加 一 些 奇数 
$n = 1; 
while ($n “ 10) { 
$sum += $n; 
$n += 2; # 准备 下 一 个 奇数 
】 
print “The total was $sum.\n ”; 
在 循环 开始 之 前 ，$sum 的 初始 值 是 undef， 但 这 并 不 妨碍 程序 的 运行 。 当 第 一 次 执行 循环 
时 ，$n 的 值 是 1， 所 以 循环 里 的 第 一 行 会 将 $s um 的 值 加 上 1。 这 么 做 ， 如 同 将 现 值 为 0 的 变 
量 加 1 《因为 我 们 把 undef 当 成 数字 用 ) ， 所 以 累加 的 值 会 变 成 1。 此 后 它 已 经 被 初始 化 
了 ， 所 以 就 能 按 常规 方式 累加 。 


同样 的 道理 ， 也 可 以 做 出 一 个 字符 串 累 加 器 ， 它 在 一 开始 时 是 空 的 : 
$string .=“more textN\n”; 


如 果 $string 的 初始 值 是 undef， 它 在 这 里 就 会 被 当成 空 字 符 串 处 理 ， 变 量 的 值 被 设 为 
"moretext\n"。 如 果 它 里 面 已 经 有 字符 串 ， 就 会 把 新 的 文字 追加 在 后 面 。 


Perl 程 序 员 常 常 根 据 需要 把 新 变量 当 作 零 或 空 字符 串 来 用 。 


许多 操作 符 在 参数 越界 或 不 合理 时 会 返回 undef。 除 非 有 特别 处 理 ， 否 则 就 会 返回 零 或 
空 字符 串 。 实 际 上 这 并 不 代表 有 什么 大 问题 ， 而 且 有 很 多 程序 员 就 是 靠 这 种 特性 来 写 程 
序 的 。 但 你 该 知道 的 是 ， 在 警告 信息 开启 时 ，Perl 通 常会 对 未 定义 值 的 危险 用 法 发 出 警 
告 ， 因 为 那 可 能 就 是 程序 里 的 缺陷 。 举 例 来 说 ， 复 制 某 个 undef 的 变量 到 另 一 个 变量 没 
有 什么 问题 ， 但 若 要 用 print 将 它 输 出 就 会 引发 警告 信息 。 


defined 函 数 


行 输入 操作 符 <STDIN> 有 时 候 会 返回 undef。 在 一 般 状 况 下 ， 它 会 返回 一 行文 本 。 但 若 没 有 
更 多 输入 ， 比 如 读 到 文件 结尾 (end-of_file) 时 ， 它 就 会 返回 undef 来 表示 这 个 状况 眶 34。 
要 判断 某 个 字符 是 undef 而 不 是 空 字 符 串 ， 可 以 使 用 defined 图 数 。 如 果 是 undef， 该 函 
数 返 回 假 ， 否 则 返回 真 ; 

$madonna =《〈STDIN> ; 


if ( defined($madonna) ) {f 
pzrint “The input was $madonna ”; 


注 34: ”一 般 来 说 ， 键 查 输 入 没有 “文件 结尾 ”可 言 ; 不 过 ， 此 输入 也 可 能 是 由 文件 重 定向 而 来 
的 。 另 外 ， 用 户 也 有 可 能 按 下 系统 转 义 的 “文件 结尾 ”按键 序列 。 
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else { 
pzrint "No input availablelvn"; 


如 果 想 自己 创建 undef 值 .可 以 直接 使 用 同名 的 undef 操 作 符 ， 


4madonna -= undef; # 回 到 虚无 ， 仿 佛 从 未 用 过 


习题 

下 列 习题 答案 参见 第 308 页 上 的 “第 二 章 习 题解 答 ” 一 节 : 

1， [5] 写 一 个 程序 ， 计 算 在 半径 为 12.$ 时 ， 圆 的 周 长 应 该 是 多 少 。 圆 周 长 是 半径 的 长 度 
乘 上 2 r (大 约 是 2 乘 以 3.141592654) 。 计 算 结 果 大 约 是 78.5。 


2.， [4] 修 改 上 题 的 程序 ， 让 它 提示 用 户 键入 半径 的 长 度 。 当 用 户 键入 12.5 时 ， 出 来 的 计 
算 结果 应 该 和 上 题 相同 。 


3. [4] 修 改 上 题 的 程序 ， 当 用 户 键入 小 于 0 的 半径 时 ， 输 出 0， 而 不 是 负数 。 
4 [8] 写 一 个 程序 ， 提 示 用 户 键入 两 个 数字 (分 两 行 键 人 ) ， 然 后 输出 两 者 的 乘积 。 


5.， [8] 写 一 个 程序 ， 提 示 用 户 键入 一 个 字符 串 及 一 个 数字 (分 两 行 键 人 ) ， 然 后 以 数 
字 为 重复 次 数 ， 连 续 输 出 字符 串 〈 提 示 : 使 用 x 操 作 符 ) 。 在 用 户 键入 “fred” 和 
“3” 有 时 ， 应 该 会 输出 3 行 “fred”;， 如 果 用 户 键入 的 是 “fred” 与 “299792”， 输 
出 结果 应 该 是 一 大 堆 。 
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第 三 章 


列表 5 数组 





如 果 说 Per]l 的 标量 代表 的 是 单数 (singular) ， 那 正如 第 二 章 开头 所 讲 的 ， 在 Perl 里 代 
表 复 数 (plural) 的 就 是 列表 和 数组 。 


列表 (list) 指 的 是 标量 的 有 序 集合 ， 而 数组 (array) 则 是 存储 列表 的 变量 。 在 Perl 里 ， 
这 两 个 术语 常常 混用 。 不 过 更 精确 地 说 ， 列 表 指 的 是 数据 ， 而 数组 指 的 是 变量 。 列 表 的 
值 不 一 定 要 放 在 数组 里 ， 但 每 个 数组 变量 都 一 定 包含 一 个 列表 (即便 是 不 含 任何 元 素 的 
空 列表 ) 。 图 3-1 所 示 的 就 是 一 个 列表 ， 无 论 它 是 否 存储 在 某 个 数组 中 。 






VALUE5 


ELENMENTAUMNBERS 
1WDICGE9 
下 





图 3-1; 包含 5 个 元 素 的 列表 


用 于 列表 和 数组 的 操作 有 许多 都 是 相通 的 ， 正 如 之 前 看 到 的 标量 值 和 变量 一 样 ， 所 以 我 
- 们 会 同时 展开 对 列表 和 数组 的 介绍 。 但 不 要 忘 了 ， 本 质 上 两 者 还 是 有 所 区 别 的 。 


数组 或 列表 中 的 每 个 元 素 (element) 都 是 单独 的 标量 变量 ， 拥 有 独立 的 标量 值 。 这 些 值 
是 有 序 的 ， 也 就 是 说 ， 从 起 始 元 素 到 终止 元 素 的 先后 次 序 是 固定 的 。 数 组 或 列表 中 的 每 
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个 元 素 都 有 相应 的 整数 作为 索引 ， 此 数字 从 0 开始 递增 研 0， 每 次 加 1。 所 以 数组 或 列表 
的 头 一 个 元 素 总 是 第 0 个 元 素 。 

因为 每 个 元 素 都 是 独立 不 相关 的 标量 值 ， 所 以 列表 或 数组 可 能 包含 数字 、 字 符 串 、 
undef 值 或 不 同类 型 标量 值 的 混合 。 不 过 最 常见 的 ， 还 是 具有 相同 类 型 的 一 组 元 素 ， 如 
由 书籍 标题 组 成 的 列表 (全 都 是 字符 串 ) ， 或 是 由 余弦 函数 值 组 成 的 列表 〈 全 都 是 数 
字 ) 。 


数组 和 列表 可 以 包含 任意 多 个 元 素 。 最 少 的 情况 是 没有 任何 元 素 ， 最 多 的 情况 则 是 把 可 
用 的 内 存 全 部 塞 满 。 这 种 策略 又 一 次 体现 了 Per “去除 不 必要 的 限制 ”的 哲学 理念 。 


访问 数组 中 的 元 素 
如 果 你 曾 在 其 他 语言 中 使 用 过 数组 ， 那 么 当 你 看 到 Perl 使 用 下 标 数字 (subseript) 来 引用 
数组 元 素 时 ， 应 该 会 觉得 习以为常 。 


数组 元 素 是 以 连续 的 整数 [性 ?来 编号 ， 从 0 开始 ， 之 后 的 每 一 个 元 素 依次 加 1 ， 如 下 所 
示 ; 


$fred[0] =“yabba"; 
$fred[1] = "dabba"; 
$fred[2] = "doo"; 


数组 〈 此 例 中 为 "fre 中 ) 的 名 字 空间 (namespace) 和 标量 的 名 字 空 间 是 完全 分 开 的 。 

你 可 以 在 同一 个 程序 里 再 取 一 个 名 为 $fred 的 标量 变量 ，Perl 会 将 两 者 当成 不 同 的 东西 ， 

而 不 会 搞 混 旺 :1。 (可 程序 维护 员 也 许 会 搞 混 ， 所 以 请 不 要 随便 将 你 的 变量 取 相 同 的 名 

称 ! ) 

凡是 能 够 用 $fred[2] 这 类 标量 变量 的 地 方 E"， 也 都 可 以 使 用 像 $fred 这 样 的 数组 元 素 。 

举例 来 说 ， 你 可 以 取出 数组 元 素 的 值 ， 或 是 用 第 二 章 中 介绍 的 各 种 表达 式 改 变 它 的 值 : 

注 1: 跟 其 他 程序 语言 不 同 ， 数 组 和 列表 的 索引 在 Per] 里 总 是 由 0 开始 。 早 期 的 Perl 版 本 允许 你 
改变 数组 和 列表 索引 值 的 起 始 编号 (不 是 针对 个 别 的 数组 或 列表 ， 而 是 一 次 性 全 部 生 
效 !| ) 。 后 来 Larry 了 解 到 这 是 个 错误 的 功能 ， 所 以 目前 非常 不 鼓励 ( 滥 ) 用 它 。 不 过 ， 
要 是 你 实在 好 奇 ， 倒 是 可 以 看 看 periyvar 说 明文 档 中 对 $[ 变量 的 说 明 。 

注 2: 是 的 ,还 可 以 用 负数 表示 ， 我 们 马上 吕 会 看 到 这 种 用 法 。 

注 3: 这 种 做 法 确实 在 语法 上 没有 二 义 性 ， 只 是 有 炫 汐 技术 的 嫌疑 。 

注 4: 几乎 是 如 此 。 最 明显 的 例外 是 foreach 禁 环 (我 们 会 在 第 63 页 的 “foreach 控 制 结构 ”一 
节 介 绍 ) 的 控制 变量 ， 它 必须 是 简单 的 标量 。 还 有 其 他 例外 ， 像 print、pzintf 使 用 的 
“间接 对 象 槽 (indirect object slot) ”及 “间接 文件 旬 栖 档 《indirect filehandle slot) ” 。 
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print $fred[0]; 
$fred[2] "diddley”; 
$fred[1] .=“whatsis"; 


当然 ， 任 何 求 值 能 得 到 数字 的 表达 式 都 可 以 用 作 下 标 。 假 如 它 不 是 整数 ， 则 会 自动 舍 去 
小 数 ， 无 论 正 负 :， 站 


$numbeT = 2.71828; 
print $fred[$numbez - 1]; # 结果 和 print $fred[1] 相 同 


假如 下 标 超 出 数组 的 尾 端 ， 则 对 应 的 值 将 会 是 undef。 这 点 和 一 般 的 标量 相同 ， 如 果 从 来 
没有 对 标量 变量 进行 过 赋值 ， 它 的 值 就 是 undef : 


$blank = $fred[ 142_857 ]; # 未 使 用 的 数组 元 素 ， 会 得 到 undef 的 结果 
$b1lanc = $mel; # 未 使 用 的 标量 $me1l， 也 会 得 到 undef 的 结果 


特殊 的 数组 索引 


假如 你 对 索引 值 超过 数组 尾 端 的 元 素 进 行 赋值 ， 数组 将 会 根据 需要 自动 扩大 一 “只 要 有 
可 用 的 内 存 分 配给 Perl， 数 组 的 长 度 是 没有 上 限 的 考 3。 如 果 在 扩展 过 程 中 需要 创建 增补 
元 素 ， 那 么 它们 的 默认 取 值 为 undef ; 


$rocks[0] = “bedrock '; # 一 个 元 素 .…… 
$rocks[1] = 'slate'; 林 : 双 一 从 
$rocks[2] = "lava'; # 再 来 一 个 ……' 
$rocks[3] = “crushed Tock'; # 再 来 一 个 …… 
$rocks[99] = “schist '; # 现在 有 95 个 undef 元 素 


有 时 候 ， 你 会 想 要 找 出 数组 里 最 后 一 个 元 素 的 索引 值 。 对 正在 使 用 的 数组 rocks 而 言 ， 
最 后 一 个 元 素 的 索引 值 是 grocks[9。 但 这 个 数字 比 数组 元 素 的 个 数 少 1， 因 为 还 有 一 
个 编号 为 0 的 元 素 ， 
，$end = 4#rocks; # 99， 也 就 是 最 后 一 个 元 素 的 索引 值 

$number_of rocks = $end + 1; # 正确 ， 但 后 面 会 看 到 更 好 的 做 法 

$rocks[ 4$#rocks ] =“hard rock'; # 最 后 一 块 石头 
最 后 一 个 例子 里 ， 把 $#name 当 成 索引 值 的 做 法 十 分 常见 ， 所 以 Larry 为 我 们 提供 了 简写 ; 
从 数组 尾 端 往 回 计 数 的 “负数 数组 索引 值 ”。 不 过 ， 超 出 数组 大 小 的 负数 索引 值 是 不 会 





注 5: 其 实 严格 地 说 ， 并 不 完全 如 此 。 最 大 的 数组 索引 应 该 是 有 符号 整 型 数 的 最 大 取 值 ， 所 以 
实际 上 你 最 多 只 有 2 147 483 647 个 条 目 。 不 过 从 历史 经 验 来 看 ， 这 么 多 完全 够 用 。 


注 6: 这 种 丑陋 的 语法 来 自 C shell。 还 好 ， 我 们 在 实际 应 用 中 很 少 会 看 到 这 种 写法 。 
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绕 回 来 的 。 假 如 你 在 数组 中 有 3 个 元 素 ， 则 有 效 的 负数 索引 值 为 -1 (最 后 一 个 元 素 ) 、 
-2 〈 中 间 的 元 素 ) 以 及 -3 〈 第 一 个 元 素 ) 。 如 果 你 用 -4 或 者 再 往 后 的 索引 值 ， 只 会 得 到 
_undef 而 不 会 绕 回 到 数组 尾部 。 实 践 中 ， 似 乎 没有 人 会 使 用 -1 以 外 的 负数 索引 值 ， 
$rocks[. -1 ] 'hard Tock';  # 和 上 面 最 后 一 个 例子 相同 ， 但 更 简单 


$dead_Tock = $rocks[-100]; # 得 到 "bedrock' 
$rocks[ -200 ] > “crystal'; # 严重 错误 ] 


量 . 

列表 直接 量 
列表 直接 量 (iist jizerel, 也 就 是 在 程序 代码 中 表示 一 列 数据 的 写法 ) ， 可 以 由 圆 括号 内 用 
喜 号 隔 开 的 一 串 数据 表示 ， 而 这 些 数 据 就 称 为 列表 元 素 。 例 如 ， 

(1，2，3) # 包含 1、2、3 这 三 个 数字 的 列表 

(1，2，3，) # 相同 的 三 个 数字 (末尾 的 逗号 会 被 忽略 ) 

("fred"，4.5) ## 两 个 元 素 ,“"fred" 和 4.5 

() # 空 列 表 0 个 元 素 

(1..100) # 100 个 整数 构成 的 列表 
上 例 最 后 一 行 用 到 了 . .范围 操作 符 (range operator) ， 这 是 我 们 第 一 次 看 到 。 该 操作 符 
会 从 左边 的 数字 计数 到 右边 ， 每 次 加 1， 以 产生 一 连 串 的 数字 吐 ]。 举 例 来 说 





(1..5) # 与 (1，2，3，4，5) 相 同 

(1.7..5.7)  ， # 同上 ， 但 这 两 个 数字 都 会 被 去 掉 小 数 部 分 
(5..1) # 空 列 表 一 一 .。 只 能 向 上 计数 
(0，2..6，10，12) # 同 (0，2，3，4，5，6，10，12) 

($m, ,$n) # 范围 由 gm 和 $n 当 前 的 值 来 决定 


(0. .4#rocks) # 上 节 的 rocks 数 组 里 的 所 有 索引 数字 


正如 最 后 两 行 所 示 ， 数 组 中 的 元 素 不 必 都 是 常数 一 “它们 可 以 是 表达 式 ， 在 每 次 用 到 这 
些 直 接 量 时 都 会 被 重新 计算 。 例 如 ， 


( 知 ，17) # 两 个 值 ， 和 的 当前 值 以 及 17 
($m+$o，$p+$q) # 两 个 值 


当然 ， 列 表 可 以 包含 任何 标量 值 ， 像 下 面 这 个 典型 的 字符 串 列表 ， 
(fred"， "barney"， "betty"，”"wilma"，"dino") 
,. qw 简 写 


在 Perl 程 序 里 ， 经 常 需要 建立 简单 的 单词 列表 (如 同 前 面 的 例子 ) 。 这 时 只 需 使 用 qw 简 
写 ， 就 可 以 省 去 键入 许多 无 谓 引 号 的 麻烦 : 


注 7: 注意 ， 范 围 操 作 符 只 能 从 小 到 大 累加 。 至 于 生成 递减 列表 ，Perl 另 有 办 法 。 


qw( fred barney betty wilma dino ) # 同上 ， 但 更 简洁 ， 也 更 少 击 键 


qw 表 示 “quoted word (加 上 引号 的 单词 ) ”或 “quoted by whitespace (用 空白 图 
引 ) ”， 讲 法 因 人 而 异 。 不 管 怎么 说 ，Perl 都 会 将 其 当成 单 引 号 内 的 字符 串 来 处 理 (所 
以 ， 在 qw 构 建 的 列表 中 ， 不 能 像 双 引 号 内 的 字符 串 一 样 使 用 \n 或 $fred) 。 其 中 的 空白 
符 〈 如 空格 、 制 表 符 以 及 换行 符 ) 会 被 抛弃 ， 然 后 剩 下 的 就 是 列表 的 元 素 。 因 为 空白 符 
会 被 搜 弃 ， 所 以 上 面 的 列表 也 可 以 写成 这 样 〈 虽 不 常见 ) : 

qu(fred 


”barney betty 
wilma dino) # 同上 ， 但 空白 符 的 用 法 比较 奇怪 


因为 qw 算 是 一 种 引用 的 形式 ， 所 以 不 能 将 注释 放 在 qw 列 表 中 。 有 些 人 喜欢 令 每 个 元 素 单 
独 成 行 ， 这 样 就 能 排 成 一 列 ， 查 看 和 增删 都 非常 方便 : 


qw( 
fred 
barney 
betty 
Wilma 
dino 

) 


前 面 两 个 例子 是 以 一 对 圆 括 号 作为 定 界 符 (delimiter) ， 其 实 Perl 还 允许 你 用 任何 标点 符 
号 作为 定 界 符 。 常 用 的 写法 有 : 
qwl fred barney betty wilma dino 1 


qw/ fred barney betty wilma dino / 
qw# fred barney betty wilma dino #  # 看 起 来 像 是 注释 ! 


前 后 两 个 定 界 符 也 可 能 不 同 ， 如 果 起 始 定 界 符 是 某 种 “ 左 ” 字 符 ， 那 么 结尾 定 界 符 必 须 
是 对 应 的 “ 右 ” 字 符 : 

qu( fred barney betty wilma dino ) 

qnw{ fred barney betty wjilma dino } 


qwf fred barney betty wilma dino ] 
qw fred baxrney betty wilLma dino > 


如 果 你 需要 在 被 园 引 的 字符 串 内 使 用 定 界 符 ， 那 就 说 明 你 选 错 了 定 界 符 。 不 过 ， 在 你 无 
法 或 不 希望 更 换 定 界 符 的 情况 下 ， 还 是 可 以 通过 反 斜 线 转 义 来 引入 这 个 字符 的 : 


qul yahoo\! google ask msn ! # 将 yahool 作为 一 个 元 素 包 含 进 来 
和 单 引号 内 的 字符 串 一 样 ， 两 个 连续 的 反 斜 线 表示 一 个 实际 的 反 斜 线 : 


qw( This as a \\ ITeal backslash ); 


列表 与 数组 | 57 


虽然 Perl 的 座右铭 是 “办 法 不 止 一 种 (There's More Than One Way To Do It) ”， 但 你 可 
能 会 纳闷 ， 有 谁 会 需要 那么 多 不 同 的 定 界 符 呢 ? 我 们 之 后 会 看 到 ，Perl 另 外 还 有 许多 类 
似 的 圈 引 写法 ， 用 起 来 都 非常 称 手 。 不 过 就 现在 来 看 ， 如 果 需 要 构造 一 连 串 的 Unix 文 件 
名 的 列表 ， 换 作 其 他 定 界 符 就 方便 多 了 : 

qu{ 


/usrVdict/Vwords 
/home/Trootbeez/.ispell_english 


. 如 果 只 能 以 /作为 定 界 符 ， 那 么 文件 路 径 就 会 充斥 着 转 义 斜 线 ， 这 个 列表 会 变 得 相当 腾 肿 
难 读 ， 并 且 将 来 的 维护 和 修改 都 会 很 麻烦 。 


列表 的 赋值 
就 像 标量 值 可 被 赋值 给 变量 一 样 ， 列 表 值 也 可 被 赋值 给 变量 ， 
($fred，4$barney，$dino) = (〈("flintstone"， "rubble"，undef); 


左 侧 列表 中 的 三 个 变量 会 依次 被 赋予 右 侧 列表 中 对 应 的 值 ， 相 当 于 我 们 分 别 做 了 三 次 独 
立 的 赋值 操作 。 因 为 列表 是 在 赋值 运算 开始 之 前 建立 的 ， 所 以 在 Perl 里 互 换 两 个 变量 的 
值 相当 容易 [8]， 

($fred，$barney) = ($baxrney，$fred); # 交换 这 两 个 变量 的 值 

($betty[0]，$betty[1]) = ($betty[1]，$bettyfo]); 
可 是 如 果 【〈 在 等 号 左边 的 ) 变量 的 个 数 不 等 于 给 定 的 列表 值 (来 自 等 号 右边 ) 的 个 数 
时 ， 会 发 生 什 么 情况 呢 ? 对 列表 进行 赋值 时 ， 多 出 来 的 值 会 被 悄悄 忽略 掉 Perl 认 
为 : 如 果 你 真 的 想 要 将 这 些 值 存 放 起 来 的 话 ， 你 必然 会 先 告知 存储 位 置 。 另 一 种 情况 ， 如 
果 变 量 的 个 数 多 过 给 定 的 列表 值 的 个 数 ， 那么 那些 多 出 来 的 变量 将 会 被 设 成 undef[ 往 9]， 





($fred，$barney) = qw< flintstone xubble slate gtanite >; # 忽略 掉 末 尾 两 个 元 素 
($uilma，$dino) = qw[flintstone]; # $dino 的 值 为 undef 


明白 了 列表 赋值 ， 你 便 可 以 用 如 下 代码 来 构建 一 个 字符 串 数 组 星 10]， 





注 8: “这 和 C 之 类 的 程序 语言 相反 ， 它 们 通常 没有 简单 的 办 法 来 做 这 种 事 。C 语 言 的 程序 员 往 往 
要 于 菜 些 宏 来 达成 相同 的 结果 ， 或 者 干脆 借助 临时 变量 来 存储 交换 值 。 

注 9: ， 嗯 ， 对 标量 变量 来 说 是 这 样 。 数 组 变量 则 会 变 成 空 列表 ， 稍 后 我 们 吉 会 看 到 。 

注 10:; 这 里 假设 Tocks 数 组 原本 就 是 空 数组 。 如 果 之 前 就 有 定义 并 且 $rocks[7] 有 取 值 ， 那 么 此 
次 的 赋值 运算 是 不 会 影响 到 该 元 素 的 。 
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($rocks[o]，$rocks[1]，4$rocks[2]，$rocks[3]) = qw/talc mica feldspar quartz/; 


不 过 ， 当 你 希望 引用 整个 数组 时 ，Perl 提 供 了 一 个 比较 简单 的 记 靶 。 只 要 在 数组 名 之 前 
加 上 @ (at) 字符 《后 面 没 有 检索 用 的 方 括号 ) 就 可 以 了 。 你 可 以 将 它 读 作 “all of the 
(全 部 的 ， 所 有 的 ) ”， 所 以 @rocks 可 以 读 作 “所 有 的 rocks” 谋 1。 这 种 写法 在 赋值 操 
作 符 的 两 边 都 可 以 使 用 : 


@rocks = qn/ bedrock slate lava /; 

@tiny = (); # 空 列 表 

@giant = 1..1e5; # 包含 100 000 个 元 素 的 列表 
@stuff = (6@giant，undef，6@giant);  # 包含 200 001 个 元 素 的 列表 
4dino =“granite"; 


6@quarTy = (erocks， "crushed rock"，@tiny，4dino); 


最 后 一 行进 行 的 赋值 运算 会 将 equarzry 设 成 拥有 5 个 元 素 的 列表 (bedrock、slate、 
lava、ctushed rock、granite) ， 因 为 etiny 贡 献 了 0 个 元 素 给 这 个 列表 (请 注意 ， 由 于 
空 列表 里 没有 任何 元 素 ， 也 就 不 会 有 undef 被 赋值 到 列表 中 一 一 但 是 (如果 需要 undef) 
我 们 也 可 以 显 式 写 明 ， 就 像 之 前 对 @stuff 的 操作 那样 ) 。 此 外 ， 值 得 注意 的 是 ， 数 组 名 
会 被 展开 成 〈 它 所 拥有 的 ) 元 素 列 表 。 因 为 数组 只 能 包含 标量 ， 不 能 包含 其 他 数组 ， 所 
以 数组 无 法 成 为 列表 里 的 元 素 轿 ' 习 。 被 赋值 之 前 ， 数 组 变量 的 值 是 空 列表 ， 即 ()。 就 像 
标量 变量 的 初始 值 是 undef 一 样 ， 新 的 或 空 的 数组 的 初始 值 是 空 列 表 。 


要 留意 的 是 ， 将 某 个 数组 复制 到 另 一 个 数组 时 ， 仍 然 算 是 列表 的 赋值 运算 ， 只 不 过 这 些 
列表 是 存储 在 数组 里 而 已 。 例 如 : 


@copy = @quarzy; # 将 一 个 数组 中 的 列表 复制 到 另 一 个 数组 


pop 和 push 操 作 符 


要 新 增 元 素 到 数组 尾 端 时 ， 只 要 将 它 存放 到 更 高 的 索引 值 对 应 的 新 位 置 就 行 了 。 不 过 ， 


注 11: Larry 宣称 他 之 所 以 选择 $ 与 @ 这 两 个 符号 ， 是 因为 $ 看 起 来 像 $calar， 即 scalar (标量 ) ， 
而 @ 则 像 erray， 即 array (数组 ) 。 如 果 你 看 不 懂 ， 或 是 不 想 用 这 种 方式 帮助 记忆 ， 那 也 
无 所 谓 。 

注 12: “不 过 在 《Intermediate Perl》 里 你 会 学 到 一 种 称 为 “引用 (reference) ”的 特殊 标 
量 。 它 能 让 我 们 做 当 “ 列 表 的 列表 ”以 及 其 他 更 有 趣 或 有 用 的 结构 。 但 在 那 种 情况 下 ， 
也 不 是 真 的 将 列表 奇 进 另 一 个 列表 中 ， 而 是 将 引用 存放 到 数组 里 。 
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真正 的 Perl 程 序 员 是 不 用 索引 的 圭 3]。 在 随后 几 个 小 节 中 ， 我 们 将 会 介绍 一 些 不 用 索引 
对 数组 进行 操作 的 方法 。 


我 们 常 把 数组 当成 堆栈 (stack) 来 用 ， 比 如 在 数组 列表 右 侧 添加 新 值 或 者 删 掉 旧 值 ， 这 
_ 有 点 像 匣 啡 店 里 堆 登 起 来 的 盘子 ， 放 上 新 盘子 和 取 用 盘子 都 在 上 面 吐 仙 。 数 组 中 最 右 例 
的 便 是 最 后 一 个 元 素 ， 也 就 是 拥有 最 大 索引 值 的 那个 元 素 。 因 为 我 们 常常 要 对 这 个 元 素 
进行 操作 ， 所 以 Perl 提 供 了 专门 的 函数 。 


pop 操 作 符 就 是 其 中 一 个 ， 它 负责 取出 数组 中 最 后 一 个 元 素 并 将 其 作为 返回 值 返 回 : 


6@array 5..9; 

$fred pop(@arTay); # $fred 变 成 9，@axritay 现在 是 (5，6，7，8) 

4barney = pop @array; “# $barney 变 成 8，@array 现在 是 (5，6，7) 

pop @array; # @array 现在 是 (5，6)。 (7 被 抛弃 了 。) 
最 后 一 行 是 在 空 上 下 文 (void context) 中 使 用 pop 操 作 符 。 所 谓 的 “ 空 上 下 文 ”只 不 过 
是 表示 返回 值 无 处 可 去 的 一 种 说 辞 。 这 其 实 也 是 pop 操 作 符 常见 的 一 种 用 法 ， 用 来 删除 
数组 中 的 最 后 一 个 元 素 。 


如 果 数 组 是 空 的 ，pop 什 么 也 不 例 〈 因 为 没有 任何 元 素 可 供 移出 ) ， 直 接 返 回 undef。 


你 也 许 已 经 注意 到 了 ，pop 后 面 加 不 加 括号 都 可 以 。 这 是 Perl 的 惯例 之 一 ， 只 要 不 会 因为 
拿 掉 括号 而 改变 原意 ， 括 号 就 是 可 省 略 的 星 55。 与 此 对 应 的 是 push 操 作 符 ， 用 于 添加 一 
个 元 素 (或 是 一 串 元 素 ) 到 数组 的 尾 端 : 


push(@array，0); # @arTray 现 在 是 (5，6，0) 

push @arTay，83; # @azTay 现 在 是 (5，6，0，8) 

push @array，1..10;  # @array 得 到 了 10 个 新 元 素 

@others = qw/ 9021071) 

push @arTay，@others; # @array 又 得 到 了 5 个 新 元 素 ( 共 19 个 ) 


注 13: 当然， 我们 是 开玩笑 的 。 但 这 个 玩笑 里 隐 仿 着 一 个 事实 : Perl 并 不 擅长 使 用 索引 值 来 访 
问 数组 。 如 果 使 用 op、push 或 别 的 不 需要 索引 值 的 操作 方式 ， 通 常会 比 用 了 很 多 索引 
操作 的 程序 更 快 ， 同 时 也 能 避免 “大 小 善 一 (off-by-one) ”错误 ， 这 通常 也 称 为 “栅栏 
柱 (fencepost) ”错误 。 时 常会 有 Perl 初学 者 想 要 比较 Perl 和 C 在 速度 上 的 盖 异 ， 于 是 
直接 拿 一 个 针对 C 语言 优化 过 的 排序 算法 (里面 用 到 了 很 多 索引 操作 ) 以 Perl 改 写 (一 
样 也 用 到 了 很 多 索引 操作 ) 来 进行 性 能 比较 后 ， 很 纳 冰 Per]l 为 何 这 么 慢 。 答 案 就 是 ， 拿 
Stradivari (斯 特 拉 迪 瓦 里 家 族 ) 制造 的 小 提琴 去 吉 铁 钉 ， 实 在 不 应 该 被 当成 一 种 发 音 技 

注 14: “另外 也 常 把 数组 当 作 队 列 (gilete) 来 用 ， 从 一 头 加 入 ， 从 另 一 头 取出 。 

注 1$:，， 你 可 能 会 发 现 这 句 话 其 实 是 同 义 反复 (tautology) 。 


注意 ，push 的 第 一 个 参数 或 者 pop 的 唯一 参数 都 必须 是 要 操作 的 数组 变量 一 对 列表 直接 
量 进行 压 和 人 (push) 或 弹出 (pop) 操作 是 没有 意义 的 。 


shift 和 unshift 操 作 符 

0 (或 者 说 是 数组 的 “ 右 ” 边 ， 最 高 下 标 值 的 部 
， 怎 么 理解 都 行 ) ， 相似 地 ，unshift 和 shift 操 作 符 则 是 对 数组 的 “开头 ” (或 者 说 

0 ' 左 ” 边 ， 最 低下 标 值 的 部 分 ) 进行 相应 的 处 理 。 来 看 几 个 例子 : 


@array = qw# dino fred barney ##; 


$m = shift(@array); # 4$m 变 成 “dino"，@array 现 在 是 (' :fredn ， "barney”) 
$n = shift @arzray; # $n 变 成 “fred" ，@array 现 在 是 ("” barney" ) 

shift @array; # 现在 6array 变 空 了 

$o = shift @array; # $o 变 成 undef，6@array 还 是 空 的 
unshift(@array，5); # @array 现 在 仅 包 含 只 有 一 个 元 素 的 列表 (5) 

unshift @array，4; # @ariyay 现 在 是 《4，5) 


@others = 1..3; 
unshift @array，@others;i # @array 又 变 成 了 (1，2，3，4，5) 


与 pop 类 似 ， 对 于 一 个 空 的 数组 变量 ，shift 会 返回 undef。 


splice 操 作 符 
push-pop 和 shift-unshift 操 作 符 都 是 针对 数组 首尾 操作 的 ， 那 么 要 是 希望 添加 或 移 除数 
组 中 间 的 某 些 元 素 ， 又 该 怎么 办 呢 ? 这 正 是 splice 操 作 符 要 做 的 事情 。 它 最 多 可 接受 4 
个 参数 ， 最 后 两 个 是 可 选 参数 。 第 一 个 参数 当然 是 要 操作 的 目标 数组 ， 第 二 个 参数 是 要 
操作 的 一 组 元 素 的 开始 位 置 。 如 果 仅 仅 给 出 这 两 项 参数 ，Per1l 会 把 从 给 定位 置 开 始 一 直 
到 末尾 的 全 部 元 素 取 出 来 并 返回 
@array = qwW( pebbles dino fred barney betty ); 
@removed = splice 6@array，2; # 在 原来 的 数组 中 删 掉 fred 及 其 后 的 元 素 
# @removed 变 成 qw(fred barney betty) 
# 而 原先 的 earray 则 变 成 qw(pebbles dino) 
我 们 可 以 通过 第 三 个 参数 指定 要 操作 的 元 素 长 度 。 请 再 读 一 遍 这 名 话 ， 很 多 人 想当然 以 
为 第 三 个 参数 是 结束 位 置 ， 但 实际 并 非 如 此 ， 它 表示 要 操作 的 元 素 个 数 ， 亦 即 长 度 。 通 
过 这 个 参数 ， 我 们 就 可 以 删 掉 数组 中 间 的 一 个 片段 : - 
@arTay = qw( pebbles dino fred batrney betty ); 
@removed = splice 6@array，1，2; # 删除 dino 和 fred 这 两 个 元 素 


# @removed 变 成 qu(dino fred) 
# 而 earray 则 变 成 qw(pebbles barney betty) 


第 四 个 参数 是 要 替换 的 列表 。 之 前 我 们 看 到 的 都 是 如 何 从 现 有 的 数组 拿 走 元 素 ， 而 其 实 
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你 也 可 以 补充 新 元 素 到 原来 的 数组 中 。 替 换 的 列表 的 长 度 并 不 一 定 要 和 拿 走 的 元 素 片段 
@array = qw( pebbles dino fred .barney betty ); 
@removed = splice @array，1，2，qw(wilnma); # 删除 dino 和 fred 
# @removed 变 成 quw(dino fred) 
# @array 变 成 qw(pebbles Wilma 
# barney betty) 
实际 上 ， 添 加 元 素 列表 并 不 需要 预先 删除 某 些 元 素 ， 把 表示 长 度 的 第 三 个 参数 设 为 0， 
即 可 不 加 删除 地 插入 新 列表 : 
@axryay = qw( pebbles dino fred barney betty ); 
@removed = splice @array，1，0，qw(wilma); # 什么 元 素 都 不 删 
# @removed 变 为 qw() 
# @arTay 变 为 qw(pebbles wilma dino 
提 fred barzney betty) 
注意 ，wilma 出 现在 dino 之 前 的 位 置 上 。Perl 从 索引 位 置 1 的 地 方 插入 新 列表 ， 然 后 顺 移 
原来 的 元 素 。 


可 能 splice 看 起 来 并 不 起 眼 ， 但 在 其 他 语言 中 ， 要 实现 相同 功能 并 不 轻松 。 许 多 人 为 了 
达到 相同 目的 ， 使 用 各 种 复杂 概念 和 技术 ， 比 如 链表 什么 的 ， 但 这 无 疑 是 把 程序 员 的 时 
间 浪 费 在 低层 次 的 数据 处 理 上 ， 既 不 合理 也 不 高 明 。 


字符 串 中 的 数组 内 插 
和 标量 一 样 ， 数 组 的 内 容 同样 可 以 被 内 播 到 双 引 号 串 中 。 内 插 时 ， 会 在 数组 的 各 个 元 素 
之 间 自 动 添加 分 隔 用 的 空格 星 !9， 


@rocks = quaf flintstone SJlate Yubble }; 
print "quartz @rocks limestone\n";j # 打印 5 种 以 空格 隔 开 的 石头 名 


数组 被 内 插 后 ， 首 尾 都 不 会 增添 额外 空格 ， 若 你 真 的 需要 ， 自 己 动手 加 吧 ， 


przint "Three Tocks are: @rocks.N\n ; 
print “There's nothing in the parens (@empty) here.Nnm”; 


要 是 你 忘记 了 数组 内 插 是 这 样 写 的 ， 那 么 当 你 把 电子 邮件 地 址 放 进 双 引 号 内 时 ， 可 能 会 
大 隐 一 惊 : 


$email =“fredebedrock.edu"; # 错 ! 这 样 会 内 插 @bedrock 这 个 数组 





注 16: ”事实 上 ， 此 分 琢 符 是 由 特殊 变量 $ 的 值 指定 的 ， 默 认为 空格 。 
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尽管 我 们 只 是 想 要 显示 电子 邮件 地 址 ， Perl 却 看 到 了 一 个 叫做 ebedrock 的 数组 ， 并 继而 
尝试 将 之 内 播 。 对 于 某 些 版 本 的 Perl， 我 们 会 看 到 这 样 的 警告 信息 [性 171， 


Possible unintended interpolation of @bedrock 
要 规避 这 种 问题 ， 要 么 将 @ 转 义 ， 要 么 直接 用 单 引 号 来 定义 字符 串 ， 


。 $email = “frTedvebedrock.edu"; # 正确 
$emajil = “fredebedrock.edu'; # 另 一 种 写法 ， 效 果 相 同 


内 插 数 组 中 的 某 个 元 素 时 ， 会 被 替换 成 该 元 素 的 值 ， 正 如 你 所 愿 : 


efred = qu(hel1o dolly); 
$y = 2; 
$x = "This is $fred[1]"s place"; # 得 "This is dolly"s place" 
$x = "This is $fred[$y-1]'s place"; # 效果 同上 
请 注意 ， 索 引 表达 式 (index expression) 会 被 当成 普通 字符 串 表 达 式 处 理 。 该 表达 式 中 
的 变量 不 会 被 内 插 。 也 就 是 说 ， 假 如 $y 包 含 字符 串 "2*4"， 索 引 结果 仍然 为 1， 而 非 7。 
因为 "2*4" 被 看 作 数 字 时 (4$y 用 于 数值 表达 式 中 ) 相当 于 数字 2[ 考 11。 如果 要 在 某 个 标量 
-变量 后 面 接着 写 左 方 括号 ， 你 需要 先 将 这 个 方 括号 隔 开 ， 它 才 不 至 于 被 识别 为 数组 引用 
的 一 部 分 。 做 法 如 下 : 

@fred = qw(eating Tocks is WTong); 

$fred = "Tight"; # 我 们 想 要 说 "this is right[3]" 

print“"this is $fred[3]\n"; # 用 到 了 $fred[3]， 打 印 "wrong” 

print "this is ${fred}[3]\n"; # 打印 "right” (用 花 括 号 避免 野 义 ) 


print "this is $fred"."[3]\m"; # 还 是 打印 right (用 分 开 的 字符 串 ) 
pzrint "this is $fred\[3]\n";  # 还 是 打印 right (用 反 斜 线 避 免 野 义 ) 


foreach 控 制 结构 
. 如 果 能 对 整个 数组 或 列表 进行 处 理 将 是 非常 方便 的 ， 为 此 Perl 提 供 了 另 一 种 控制 结构 。 
foreach (循环 ) 能 逐 项 遍历 列表 中 的 值 ， 依 次 欠 代 〈 循 环 过 程 ) : 


foreach $rock (qAW bedrock slate lava /) { 
print "0ne rock is $rock.\n"; # 依次 打印 所 有 三 种 石头 的 名 称 
】} 


注 17: 。” 某 些 5.6 之 前 的 Perl 版 本 确实 会 将 此 视 为 致命 错误 ， 但 后 来 改 为 警告 信息 ， 否 则 就 太 吵 人 
了 。 不 过 在 新 版 Perl 当 中 ， 这 已 经 不 成 问题 。 


注 18: 当然， 如 果 你 启用 了 人 警告 信息 ，Perl 可 能 会 提醒 你 "2#4" 这 个 数字 看 起 来 怪 怪 的 。 
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每 次 循环 迭代 时 ， 控 制 变量 (control variable， 即 此 例 中 的 科 ock) 都 会 从 列表 中 取得 
新 的 值 。 第 一 次 执行 时 ， 控 制 变量 的 值 是 "bedrock"， 而 第 三 次 时 ， 控 制 变量 的 值 是 


"1ava"。 

控制 变量 并 不 是 列表 元 素 的 复制 品 一 一 实际 上 ， 它 就 是 列表 元 素 本 身 。 也 就 是 说 ， 假 如 
在 循环 中 修改 了 控制 变量 的 值 ， 也 就 同时 修改 了 这 个 列表 元 素 ， 如 同 下 面 的 代码 片段 所 
示 。 这 种 设计 很 有 效 ， 也 被 广泛 认可 ， 但 是 如 果 你 没有 预备 ， 它 却 可 以 让 你 大 吃 一 惊 ; 





@rocks = qw/ bedrock slate lava /; 
foreach $rock (@rocks) { * 
$rock = "\t4rock"; # 在 @rocks 的 每 个 元 素 前 加 上 制 表 符 


$rock .= "Nm ; # 同时 在 末尾 加 上 换行 符 


】} 
pxint "The rocks are:\n"，@rocks; # 各 自 占 一 行 ， 并 使 用 缩 排 


当 循 环 结束 后 ， 控制 变量 的 值 会 变 成 什么 ? 它 仍然 是 循环 执 # 了 之 前 的 值 。 Per] 会 自动 存 
储 foreach 循 环 的 控制 变量 并 在 循环 结束 之 后 还 原 。 在 循环 执行 期 间 ， 我 们 无 法 访问 或 
改变 已 存储 的 值 ， 所 以 当 循 环 结 束 时 ， 变 量 仍然 保持 循环 前 的 值 ， 如 果 它 之 前 从 未 被 赋 
值 ， 那 就 仍然 是 undef 

$rock = “shale '; 


@rocks = qW/ bedTrock slate lava /; 


foreach $rock 《@rocks) { 


} 
print "rock is still $rock\n"; # 打印 “Yock is stil1 shale” 


也 就 是 说 ， 假 如 你 克 想 将 循环 的 控制 变量 取 名 为 科 ock 的 话 ， 不 必 担 心 之 前 是 否 用 过 同名 
的 变量 。 人 我 们 会 提供 更 好 的 处 理 方法 。 


Perl 最 喜欢 用 的 默认 变量 : $_ 
假如 在 foreach 循 环 开 头 省 略 控制 变量 ， Perl 就 会 用 它 最 喜欢 用 的 默认 变量 $ 。 这 个 变量 
除了 名 称 比较 特别 以 外 ， 和 其 他 标量 变量 (几乎 ) 没什么 差别 。 例 如 ， 

foreach (1..10) { # 默认 会 用 4 作为 控制 变量 


print "II can Count to $ INn“; 


虽然 它 并 非 Perl 中 唯一 的 软 认 变量 ， 却 是 最 常用 的 一 个 。 我 们 以 后 还 会 看 到 ， 在 许多 种 
情况 下 ， 当 未 告知 Peil 使 用 哪个 变量 或 数值 时 ，Perl 都 会 自动 使 用 _， 从 而 使 程序 员 免 于 
命名 和 键 和 新 变量 的 痛苦 。 没 错 ， 这 里 的 print 就 是 一 个 例子 ， 在 没有 参数 时 ， 它 会 打印 
$ 的 值 ; 








$4_ = "Yabba dabba doon ”; 
print; # 默认 打印 $_ 变量 的 值 


reverse 操 作 符 


reverse 操 作 符 会 读 取 列 表 的 值 (也 可 能 来 自 数 组 ) ， 并 按 相 反 的 次 序 返 回访 列表 。 因 
.此 ， 假 如 你 对 范围 操作 符 (..) 只 能 递增 计数 感到 失望 ， 可 以 这 样 来 弥补 : 


@fred = 6..10; 

@barTney = TeveIse(@fred); # 得 10，9，8，7，6 

@wilma = reverse 6..10;  # 同上 ， 但 不 需要 额外 的 数组 
@fred ”= TeveIse 6@fred;j “# 将 道 序 后 的 结果 放 回 原来 那个 数组 


值得 注意 的 是 ,最 后 一 行 用 了 两 次 6fred。Perl 总 是 会 先 计 算 (等 号 右边 ) 要 赋 的 值 ， 再 
实际 进行 赋值 操作 。 

请 记 住 ，revetrse 会 返回 次 序 相 反 的 列表 ， 但 它 并 不 会 修改 传 进 来 的 参数 。 假 如 返回 值 
无 处 可 去 ， 那 这 种 操作 也 就 变 得 毫 无 意义 ， 


> Teverse @fred; ” # 错误 一 一 这 不 会 修改 6fred 的 值 
6@fred = reverse @fredj; # 这 才 正 确 - 


-sort 操作 符 

sort 操 作 符 会 读 取 列表 的 值 (可 也 能 来 自 数 组 ) ， 而 且 会 根据 内 部 的 字符 编码 顺序 对 
它们 进行 排序 。 对 字符 串 而 言 ， 就 是 字符 在 计算 机 内 部 表示 的 代码 点 往 !1。 在 以 往 
Unicode 还 没 被 Perl 完 整 支持 的 年 代 ， 所 谓 的 排序 规则 就 是 看 ASCII 码 的 大 小 ， 而 现在 
Unicode 不 光 是 保留 ASCII 中 的 编码 顺序 ， 还 为 其 他 各 式 各 样 的 字符 设 定 代码 点 。 字 符 代 
码 点 的 顺序 相当 奇怪 :大写 字符 排 在 小 写字 符 前 面 ， 数 字 排 在 字母 之 前 ， 而 标点 符号 则 
散落 各 处 。 不 管 是 否 合乎 逻 辑 ， 按 照 代码 点 大 小 排序 只 是 默认 做 法 。 在 第 十 四 章 里 ， 我 
们 将 会 看 到 如 何 按 自 定 规则 进行 排序 。sort 操 作 符 的 参数 应 该 是 某 个 输入 列表 ， 然 后 对 
它 排序 ， 继 而 返回 排序 后 的 列表 。 来 看 几 个 例子 


@rocks = qwW/ bedrock slate rubble granite /; 

@sorted = Sort(@rocks); # 得 bedrock，8granite，ITubble，Sslate 
@back = feverse Sort @rocks; # 逆序 后 从 slate 到 bedrock 排 列 

@rocks ”= Sort @rocks; # 将 排序 后 的 结果 存 回 至 @rocks 


@nymbers = sort 97..1023  / 间 得 100，101，102，97，98，99 
从 最 后 一 个 例子 可 以 看 出 ， 将 数字 当成 字符 串 来 排序 ， 这 样 的 结果 会 不 太 对 。 根 据 
软 认 的 排序 规则 ， 任 何以 1 开头 的 字符 串 会 被 排 在 以 9 开头 的 字符 串 之 前 。 另 外 ， 它 和 


注 19: ”默认 的 Unicode 字 符 事 排序 不 考虑 本 地 化 (locale) 设置 ， 但 有 时 为 了 满足 特定 需要 ， 你 
得 自己 打开 本 地 化 设置 。 
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Teverse 一 样 不 会 修改 参数 ， 所 以 要 对 数组 排序 时 ， 你 必须 将 排序 后 的 结果 存 回 数组 : 


sort erocks; # 错误 ， 这 么 做 不 会 修改 6rocks 
@rocks = 'sort @rocks; # 现在 收集 来 的 石头 排 得 井井有条 


each 操 作 符 


从 Perl 5.12 版 开始 ， 已 经 可 以 针对 数组 使 用 each 操 作 符 了 。 但 在 此 之 前 ，each 只 能 用 于 
提取 哈 希 的 键 - 值 对 ， 具 体 细 节 我 们 留 到 第 五 章 再 讲 。 


每 次 对 数组 调用 each， 会 返回 数组 中 下 一 个 元 素 所 对 应 的 两 个 值 一 一 该 元 素 的 索引 以 及 
该 元 素 的 值 ， 


use 5.012; 


my @rocks = qw/ bedrock slate ITubble granite /; 
While( my( $index，$value ) = each 6@rocks ) {f 
Say “$index: $value"; 


如 果 不 用 each 来 实现 ， 就 得 自己 根据 索引 从 小 到 大 依次 遍历 ， 然 后 借助 索引 值 取得 元 素 
的 值 ; 
@rocks qw/ bedrzock slate Yubble granite /; 


foreach $index ( 0 .。$#rocks ) { 
print "$index: $rocks[$index]\n"; 
】 


实际 上 哪 一 个 更 方便 得 看 你 的 具体 需求 ， 并 无 绝对 定论 。 


标量 上 下 文 与 列表 上 下 文 

这 是 本 章 最 重要 的 一 节 ， 事 实 上 ， 这 甚至 也 是 本 书 最 重要 的 一 节 。 哪 怕 说 你 的 Perl 水 平 
完全 取决 于 对 本 节 的 了 解 程度 ， 也 一 点 都 不 礁 张 。 所 以 ， 假 如 你 到 目前 为 止 一 直 都 是 随 
意 翻 阅 本 书 的 话 ， 现 在 应 该 是 全 神 贯 注 的 时 候 了 。 


这 并 不 是 说 本 节 有 多 么 难 懂 。 这 里 的 概念 其 实 非 常 简单 : 同一 个 表达 式 出 现在 不 同 的 地 

方 会 有 不 同 的 意义 。 你 应 该 不 会 陌生 ， 因 为 在 自然 语言 里 ， 这 种 情况 随处 可 见 。 以 英语 

为 例 晨 21， 假 如 有 人 问 你 单词 “read”[ 圭 2 代表 什么 意思 ， 你 一 定 很 难 简单 回答 ， 因 为 

注 20; ”假如 英语 不 是 你 的 母语 ， 这 样 的 类 比 对 你 可 能 并 不 明显 。 但 是 每 种 语言 都 会 有 上 下 文 证 
知 (context sensitivity) ， 因 此 你 可 以 想 出 你 自己 的 语言 里 的 例子 。 

注 21: ”如 果 是 在 讲话 而 不 是 写 书 ， 那 他 们 也 许 是 在 问 单词 “red” 代 表 什么 意思 (译注 : 英文 
里 read 的 过 去 式 与 red 的 发 音 完全 相同 。) 。 所 以 这 么 说 无 论 如 何 都 会 造成 混淆 。 就 像 
Douglas Hofstadter 所 说 的 ， 没 有 任何 语言 能 够 之 无 歧义 地 表达 思想 ， 尤 其 是 英语 。 
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用 在 不 一 样 的 地 方 ， 表 达 的 意思 可 能 会 不 同 。 除 非 你 知道 上 下 文 (conrtexf) ， 否 则 一 定 
没 办 法 确认 它 的 准确 含义 。 


所 谓 上 下 文 ， 指 的 是 你 如 何 使 用 表达 式 。 实 际 上 你 已 经 看 到 过 许多 针对 数字 和 字符 串 上 
下 文 的 操作 了 。 比 如 按照 数字 方式 进行 操作 时 得 到 的 就 是 数字 结果 ， 而 按照 字符 串 方式 
进行 某 些 操作 时 返回 的 则 是 字符 串 结 果 。 并 且 ， 起 到 决定 性 因素 的 是 操作 符 ， 而 不 是 被 
操作 的 各 种 变量 或 直接 量 。2*3 中 的 * 作 为 对 数字 的 乘法 运算 符号 时 得 到 的 结果 就 是 数字 
6， 而 <2 x 3> 中 的 x 则 表示 字符 串 重复 操作 ， 所 以 得 到 的 结果 是 字符 串 222。 这 就 是 上 下 文 
在 起 作用 。 


当 Per] 在 解析 表达 式 时 ， 你 要 么 希望 它 返 回 一 个 标量 ， 要 么 希望 它 返回 一 个 列表 攻 2。 
表达 式 所 在 的 位 置 ，Perl 期 望 得 到 什么 ， 那 就 是 该 表达 式 的 上 下 文 吐 231， 

42 + Something # 这 里 的 something 必 须 是 标量 

sort Somethjing # 这 里 的 something 必 须 是 列表 
就 算 somethin8 这 个 单词 的 拼写 保持 不 变 ， 它 却 会 在 某 种 情况 下 得 出 单一 的 标量 值 ， 而 在 
另外 的 情况 下 产生 一 个 列表 哇 约 。 在 Perl 中 ， 表 达 式 总 是 根据 所 需要 的 上 下 文 返回 对 应 
的 值 。 以 数组 的 “名 称 ”里 3 为 例 ， 在 列表 上 下 文中 ， 它 会 返回 元 素 的 列表 ， 在 标量 上 
下 文中 ， 则 返回 数组 中 的 元 素 个 数 ， 

@people = qw( fred barney betty ); 


@sorted = sort 6@peoplej # 列表 上 下 文 : barney，betty，fTed 
$number = 42 + @peoplej # 标量 上 下 文 : 42 + 3 ， 得 45 


即使 是 普通 的 赋值 运算 〈 对 标量 或 列表 赋值 ) ， 都 可 以 有 不 同 的 上 下 文 : 


@list = @people; # 得 到 3 个 人 的 姓名 列表 
$n = 6@people; # 得 到 人 数 3 


但 请 不 要 立刻 得 出 结论 ， 认 为 在 标量 上 下 文中 一 定 会 得 到 (列表 上 下 文中 返回 的 列表 


注 22: 当然 ，Perl 也 可 能 期 望 得 到 其 他 的 东西 。 另 有 一 些 上 下 文 在 这 里 无 法 介绍 。 事 实 上 ， 没 
有 人 知道 Perl 到 底 有 多 少 种 上 下 文 ，Perl 长 老 团 还 没有 对 这 个 问题 达成 共识 。 

注 23: 这 和 我 们 人 类 使 用 的 语言 也 有 相似 之 处 。 如 果 我 犯 了 一 个 文法 上 的 错误 ， 而 你 能 马上 注 
意 到 错误 ， 那 是 因为 你 会 在 某 些 位 置 上 项 望 有 菜 些 相关 的 用 字 。 到 后 来 ， 你 一 定 也 能 以 
这 种 方法 来 读 Perl， 不 过 在 开始 时 得 先 想 一 想 。 


注 24: 当然 ， 列 表 可 能 恰好 只 有 一 个 元 素 ， 它 也 可 能 是 空 的， 或 具有 任何 数目 的 元 素 。 
注 25: “对 了 ， 数 组 @people 的 名 称 就 只 是 people。@ 符 号 只 是 一 个 限定 苷 (qualifier) 。 
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的 ) 元 素 个 数 。 有 许多 能 产生 列表 的 表达 式 吐 29 所 返回 的 东西 可 能 比 你 想象 中 的 还 要 丰 
富有 趣 。 : 


不 光 如 此 ， 从 我 们 积累 的 经 验 来 看 ， 仅 仅 通过 对 表达 式 形式 上 的 判断 是 无 法 归纳 出 一 个 
通用 法 则 来 的 。 每 一 个 表达 式 都 可 能 有 它 自己 的 特定 规则 。 所 以 ， 实 际 上 能 够 概括 的 规 
” 则 也 就 是 : 哪 种 上 下 文 更 有 意义 ， 就 应 该 是 哪 种 上 下 文 。 但 其 实 记 住 这 条 规则 并 没什么 
用 。Perl 是 一 种 会 尽量 帮 你 完成 常见 任务 的 语言 ， 往 往 它 的 选择 就 是 你 想 要 的 结果 。 


在 标量 上 下 文中 使 用 产生 列表 的 表达 式 

有 些 表达 式 通 常 是 用 来 生成 列表 的 ， 假 如 在 标量 上 下 文中 使 用 ， 结 果 会 怎样 ? 那 就 要 
看 该 表达 式 的 作者 怎么 说 了 。 基 本 上 ， 这 位 作者 就 是 Larry， 他 会 在 说 明文 档 里 详细 解 
释 。 事 实 上 ， 学 习 Perl 的 大 部 分 时 间 都 是 在 学 习 Larry 的 思维 方式 吐 2]。 因 此 ， 只 要 你 
能 以 Larry 的 方式 思考 ， 就 可 以 预测 Perl 接 下 来 会 怎么 做 。 但 在 你 学 习 的 过 程 中 ， 可 能 
还 是 需要 看 看 Peri 的 说 明文 档 。 


某 些 表达 式 不 会 在 标量 上 下 文中 返回 任何 值 。 比 如 sort 在 标量 上 下 文中 会 返回 什么 ? 实 
际 上 没 人 需要 统计 列表 排序 后 的 元 素 个 数 。 所 以 ， 除 非 有 人 修改 了 实现 方式 ， 和 否则 sort 
在 标量 上 下 文中 总 是 返回 undef。 


另 一 个 例子 是 reverse。 在 列表 上 下 文中 ， 它 很 自然 地 返回 逆序 后 的 列表 ， 在 标量 上 下 
文中 ， 则 返回 逆序 后 的 字符 串 〈 先 将 列表 中 所 有 字符 串 全 部 连接 到 一 起 ， 再 对 结果 中 的 
每 一 个 字符 作 逆序 处 理 ) [ 注 291; 
@backwards = ITeverse qA/ yabba dabba doo /; 
# 会 得 到 doo，dabba，yabba 


$backwards = ITeverse qw/ yabba dabba doo /; 
# 会 得 到 oodabbadabbay 


注 26: ”暂且 不 管 这 一 小 节 的 论点 为 何 ， 其 实 “ 产 生 列 表 ” 的 表达 式 和 “产生 标量 ”的 表达 式 之 
间 并 无 不 同 ， 任 何 表 达 式 都 可 以 产生 列表 或 标量 ， 报 据 上 下 文 而 定 。 国 此 当 我 们 说 “ 产 
生 列 表 的 表达 式 ” 时 ， 我 们 指 的 是 该 表达 式 通常 被 用 在 列表 上 下 文中 。 所 以 当 它 们 不 小 
心 被 用 在 标量 上 下 文中 时 〈 像 Teverse 或 是 Qfred) ， 你 可 能 会 因此 感到 惊讶 。 

注 27: “这 其 实 也 很 自然 ， 因 为 在 创造 Perl 时 ，Larry 已 经 试 着 揣测 你 的 想法 ， 并 预测 你 的 需求 

注 28: ”我 们 中 的 一 个 曾 把 Larry 逼 在 电梯 角落 ， 请 他 解释 解释 这 到 底 算 要 解决 哪 门 子 问题 ， 但 他 
好 像 要 退 到 角落 深 处 一 般 ， 性 生生 地 说 道 : “当时 觉得 这 种 做 法 很 酷 ， 所 以 就 …… 
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刚 开始 时 ， 往 往 很 难 一 一 眼看 出 某 个 表达 式 到 底 是 在 标量 上 下 文 还 是 在 列表 上 下 文中 。 但 
请 相信 我 们 ， 这 种 直觉 终 将 成 为 你 的 第 二 天 性 。 


作为 起 步 ， 下 面 列 出 一 些 常 见 的 上 下 文 : 


$fred = something; # 标量 上 下 文 
@pebbles = something; # 列表 上 下 文 
($wilma，$betty) = something; # 列表 上 下 文 
($dino) = something; # 还 是 列表 上 下 文 ! 


不 要 被 只 有 一 个 元 素 的 列表 给 蒙骗 了 ， 最 后 一 个 例子 是 列表 上 下 文 而 不 是 标量 上 下 文 
、 一 行 完全 不 同 。 如 果 是 给 列表 赋值 (不 管 其 
中 元 素 的 个 数 ) ， 那 就 是 列表 上 下 文 ， 如 果 是 给 数组 赋值 ， 那 还 是 列表 上 下 文 。 


下 面 列 出 的 是 之 前 看 到 过 的 表达 式 以 及 各 表达 式 的 上 下 文 ， 我 们 分 成 两 组 ， 第 一 组 是 标 
量 上 下 文中 使 用 sometping 的 例子 : 


$fred = 5omething; 

$fred[3] = something; 

123 + Somethjing 

Something + 654 

if (something) { . .} 

while 《something) { . 。} 
$fred[something] = something; 


第 二 组 是 列表 上 下 文中 的 例子 : 


@fred = something; 
($fred，$barney) = something; 
($fred) = Something; 

push @fred，somethjing; 

foreach $fred (something) { .:， } 
Sort Somethjing 

Teverse Something 

print something 


在 列表 上 下 文中 使 用 产生 标量 的 表达 式 
这 种 情况 十 分 简单 ， 如 果 表 达 式 求 值 结果 为 标量 值 ， 则 自动 产生 一 个 仅 含 此 标量 值 的 列 
表 ， 


efred = 6 * 7; # 得 到 仅 有 单个 元 素 的 列表 〈42) 
@barney = hello” 。””。 "World"; 


好 吧 ， 其 实 这 里 有 个 小 小 的 陷 际 : 
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6@wilma = undef; # 糟糕 ! 结果 是 得 到 一 个 列表 ， 而 且 仅 有 的 一 个 元 素 为 未 定义 的 《undef) 
# 这 和 下 面 的 做 法 的 效果 完全 不 同 : 
ebetty -=(〈 ); ， # 这 才 是 正确 的 清空 数组 的 方法 
因为 undef 是 标量 值 ， 所 以 将 undef 赋 值 给 数组 并 不 会 清空 该 数组 。 要 清空 的 话 ， 直 接 赋 
予 一 个 空 列 表 就 可 以 了 蛙 291。 


强制 指定 标量 上 下 文 
偶尔 ， 在 Perl 想 要 列表 上 下 文 的 地 方 你 想 要 强制 引入 标量 上 下 文 ， 可 以 使 用 伪 函 数 
scalar。 它 可 不 是 真正 的 函数 ， 只 不 过 告诉 Perl 这 里 要 切换 到 标量 上 下 文 ， 

@rocks = qw( talc quartz jade obsidian ); 

pzrint "How many Tocks do you have?\n ; 

print "IT have "，@rocks，" rocksliN\n'"; # 错误 ， 这 会 输出 各 种 石头 的 名 称 

print "I have "，scalar @rocks，"”ITocksi\n"; # 对 了 ， 打 印 出 来 的 是 石头 种 数 
说 来 也 奇怪 ， 没 有 相应 的 函数 可 用 来 强行 切 人 列表 上 下 文 。 原 因 很 简单 ， 因 为 你 根本 用 
不 到 ， 相 信 我 们 。 


列表 上 下 文中 的 <STDIN> 


我 们 之 前 看 过 的 <STDIN> 操 作 符 在 列表 上 下 文中 会 返回 不 同 的 值 。 就 像 前 面 提 过 的 ， 
<STDIN> 在 标量 上 下 文中 会 返回 输入 数据 的 下 一 行 ， 在 列表 上 下 文中 ， 则 会 返回 所 有 剩 
下 的 行 ， 直 到 文件 结尾 为 止 。 返 回 的 每 一 行 都 会 成 为 列表 中 的 元 素 。 例 如 : 

@lines = 《STDIN>; # 在 列表 上 下 文中 读 取 标 准 输入 
当 输入 数据 来 自 某 个 文件 时 ， 它 会 读 取 文 件 的 剩余 部 分 。 但 如 果 输 入 数据 的 来 源 是 键 
盘 ， 应 该 如 何 发 送 文件 结尾 标记 呢 ? 对 Unix 或 类 似 系统 (包括 Linux 和 Mac 0OS X) 来 


说 ， 通 常 可 以 键 和 Control+D! "来 告知 系统 ， 不 会 再 有 任何 输入 了 。 即 使 这 个 特殊 
字符 会 被 打印 在 屏幕 上 ，Perl 也 不 会 看 到 它 [?0。 对 DOS/Windows 系 统 来 说 ， 就 要 用 


注 29: “好 吧 ， 在 真实 世界 的 算法 中 ， 如 果 变 量 是 在 某 个 特定 词法 作用 域内 声明 的 ， 就 不 用 显 式 
清空 。 因 为 程序 运行 到 此 范围 外 时 就 会 自动 恢复 初始 的 清空 状态 。 所 以 这 种 写法 在 实际 
程序 中 并 不 多 见 。 有 关 词法 作用 域 的 内 容 ， 我 们 将 在 第 四 章 中 介绍 。 

注 30: “这 只 是 默认 按键 ， 你 可 用 stty 命 令 加 以 变更 。 但 是 这 个 默认 配置 很 善 遍 一 一 我 们 还 没 见 
过 哪 种 Unix 系 统 会 使 用 其 他 字符 来 代表 文件 结尾 。 

注 31: “实际 上 是 操作 系统 “看 到 了 ”这 个 控制 按键 ， 并 据 此 向 应 用 程序 报告 “文件 结尾 ”的 信 
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Control+Z 了 圭 3]。 假 如 你 使 用 的 是 其 他 操作 系统 ， 请 查看 系统 的 说 明文 档 或 就 近 找 专家 
咨询 。 


假如 运行 程序 的 人 在 键 人 了 三 行 数据 之 后 ， 又 用 适当 的 按键 来 表示 文件 结 结尾 ， 最 后 得 到 
的 数组 就 会 包含 三 个 元 素 。 每 个 元 素 都 是 一 个 以 换行 符 结尾 的 字符 串 ， 因 为 这 些 换行 符 
也 是 输入 的 内 容 。 





和 
chomp ， 它 会 自动 去 掉 每 个 元 素 的 换行 符 。 例如 ， 


@lines =《9TDIN>; # Read 3a11 the 1ines 
chomp(@lines); 。 # 去 掉 所 有 换行 符 


不 过 更 常见 的 做 法 是 按 之 前 介绍 的 风格 写成 ， 
chomp(@lines = 《<STDIN>); # 读 人 所 有 行 ， 换 行 符 除 外 


虽然 你 可 以 按 个 人 喜好 来 决定 怎么 做 ， 不 过 天 多 数 Per 程序 员 都 会 倾向 于 第 二 种 更 紧凑 
的 写法 。 


输入 数据 一 经 读 取 ， 就 无 法 回头 再 读 一 次 。 这 也 许 对 你 〈 但 不 见得 对 所 有 人 ) 而 言 是 理 
所 当然 的 事 星 331， 一 旦 读 到 文件 结尾 ， 就 没有 更 多 输入 数据 可 供 读 取 了 。 


如 果 要 读 入 的 是 某 个 400MB 大 小 的 日 志文 件 ， 会 有 什么 结果 ? “ 行 输入 ”操作 符 会 读 取 
所 有 的 数据 行 ， 同 时 占用 大 量 内 存 吐 约 。Perl 不 会 限制 你 做 这 种 事 ， 但 是 系统 中 的 其 他 
用 户 (当然 还 有 系统 管理 员 ) 很 可 能 会 抗议 。 在 读 取 大 量 数据 时 ， 通 常 应 该 考虑 替代 方 
案 ， 避 免 一 次 将 全 部 数据 读 进 内 存 。 


注 32: “在 DOS/Windows 上 的 某 些 Perl 版 本 有 个 缺 鸣 : 按 下 Control+Z 之 后 ， 在 屏幕 上 输出 的 第 一 
行 会 被 盖 掉 。 在 这 些 系 统 上 ， 你 可 以 在 读 进 输入 后 输出 一 个 空白 行 ( 即 "\n") 来 解决 这 
个 问题 。 | 

注 33 没 错 ， 如 果 你 的 输入 来 源 可 以 使 用 Seek 函 数 ， 吉 可 以 定位 到 起 点 重新 读 入 。 但 这 种 做 法 
并 不 过 合 在 此 处 讨论 。 

注 34: 通常 ， 需 要 的 内 存 远 超过 文件 的 大 小 。 换 外 话说， 一 个 400MB 大 小 的 文件 在 被 读 进 数组 时 
通常 会 占据 至 少 1GB 的 内 看。 因为 Perl 会 的 事后 的 操作 时 间 。 这 是 个 
不 错 的 取舍 : 假如 内 存 不 够 ， 还 可 以 再 买 一 些 ; 但 如 果 时 间 不 够 ， 那 就 完了 。 
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习题 


”以 下 习题 答案 参见 第 310 页 上 的 “第 三 章 习 题解 答 ”一 节 ; 


1. 


[6] 写 一 个 程序 ， 读 和 一些 字符 捉 〈 每 行 一 个 ) ， 直 到 文件 结尾 为 止 。 然 后 ， 再 以 
相反 顺序 输出 这 个 列表 。 假 如 输入 来 自 键盘 ， 你 需要 在 Unix 系 统 上 键入 Control+D 
或 在 Windows 系 统 上 键入 Control+Z 来 表示 输入 的 结束 。 
[12] 写 一 个 程序 ， 读 入 一 些 数字 (每 行 一 个 ) ， 直 到 文件 结尾 为 止 。 然 后 ， 根 据 每 
一 个 数字 输出 如 下 名 单 中 相应 的 人 名 〈 请 将 这 份 名 单 写 到 程序 里 ， 也 就 是 说 ， 你 的 
程序 代码 里 应 该 出 现 这 份 名 单 ) 。 比 方 说 ， 如 果 输 入 的 数字 是 1、2、4 和 2 ， 那 么 输 
出 的 人 名 将 会 是 fred、betty、dino 和 betty:， 

fred betty barney dino Wilma pebb1les bamm-bamm 
[8] 写 一 个 程序 ， 读 入 一 些 字符 串 (每 行 一 个 ) ， 直 到 文件 结尾 为 止 。 然 后 ， 请 
按照 ASCII 码 顺序 输出 所 有 字符 串 。 换 名 话说 ， 假 如 你 键入 的 是 fred、barney、 
wilma、betty， 输 出 应 该 显示 baxrney betty fred wilma。 所 有 的 字符 串 可 以 成 一 
行 输出 吗 ? 或 者 分 开 在 不 同行 输出 ? 你 能 分 别 让 程序 以 这 两 种 方式 输出 吗 ? 
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子 程序 


我 们 已 见 过 并 用 过 一 些 内置 的 系统 函数 ， 像 chomp、reverse 和 print 等 。 但 是 ， 就 如 同 其 他 
语言 一 样 ，Perl 也 可 以 让 你 创建 子 程序 (subrouiine) ， 也 就 是 用 户 自 定义 的 函数 ! 注 ] 。 它 
让 我 们 可 以 重复 利用 已 有 的 代码 。 子 程序 的 名 称 也 属于 Perl 标 识 符 的 范畴 〈 即 由 字母 、 
数字 和 下 划 线 组 成 ， 但 不 能 以 数字 开头 ) ， 有 时 候 视 情况 会 以 “与 号 ” (8&) 开头 。 关 于 
何 时 可 以 省 略 以 及 何 时 必须 加 上 这 个 放 在 标识 符 前 面 的 与 号 ， 我 们 将 在 本 章 末尾 进行 介 
绍 。 若 无 其 他 声明 ， 我 们 都 将 使 用 该 符号 ， 这 通常 都 是 比较 保险 的 做 法 。 当 然 ， 也 有 一 
定 不 能 用 与 号 的 情形 ， 届 时 我 们 自然 会 作 说 明 。 


子 程序 名 属于 独立 的 名 字 空间 ， 这 样 Perl 就 不 会 将 同一 段 代码 中 的 子 程序 8fred 和 标量 
$fred 搞 混 一 一 虽然 实际 编程 时 没 人 会 为 两 种 不 同 的 东西 取 一 样 的 名 字 。 


Ph 信人 

定义 子 程序 

要 定义 你 自己 的 子 程序 ， 可 使 用 关键 字 sub、 子 程序 名 (不 包含 与 号 ) 以 及 用 花 括 号 封 
闭 起 来 的 代码 块 ， 这 部 分 代码 就 是 子 程序 的 主体 。 例 如 ， 


sub marine { 
$n += 1 # 全 局 变量 $n 


print “Hello，sailor number $nlNn"; 





注 1: 在 Perl 中 ， 我 们 一 般 不 会 像 Pascal 程 序 员 那样 区 分 有 返回 值 的 函数 Unction) 和 无 返回 
值 的 过 程 (procedure) 。 但 请 注意 ， 子 杏 序 总 是 由 用 户 定义 的 ,而 函数 则 不 一 定 。 所 以 ， 
有 时 候 “函数 ”这 个 词 可 能 被 当成 “ 子 程序 ”的 同义词 ， 但 它 也 可 能 指 某 个 Perl 的 内 置 函 
数 。 大 多 数 时 候 ， 可 以 自己 定义 的 是 子 程序 ， 而 不 是 内 置 函 数 ， 所 以 我 们 这 章 的 标题 是 
“ 子 程 序 ”。 
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子 程序 可 以 被 定义 在 程序 中 的 任意 位 置 ， 有 C 语 言 或 Pascal 背 景 的 程序 员 喜 欢 将 子 程序 的 定义 
放 在 文件 的 开头 。 也 有 人 喜欢 将 它们 放 在 文件 的 结尾 ， 从 而 使 程序 主体 出 现在 开头 部 分 。 你 
可 以 随意 选择 采用 哪 种 风格 。 不 管 怎样 ， 你 都 不 需要 对 子 程序 进行 事先 声明 [入 ?1 。 子 程序 
的 定义 是 全 局 的 ， 除 非 你 使 用 一 些 强 有 力 的 技巧 ， 否 则 不 存在 所 谓 的 私有 子 程序 [3 。 假 
如 你 定义 了 两 个 重 名 的 子 程序 ' 兰 5 ， 那 么 后 面 的 那个 子 程序 会 覆 差 掉 前 面 的 那个 。 如 
果 启 用 了 警告 信息 ，Perl 会 告诉 你 有 子 程序 被 重复 定义 。 一 般 来 说 ， 重 名 总 归 是 不 够 妥 
当 的 做 法 ， 也 会 让 程序 维护 员 感 到 困惑 。 


正如 你 在 之 前 的 例子 中 看 到 的 ， 你 可 以 在 子 程序 中 使 用 任何 全 局 变量 。 事 实 上 ,目前 你 
见 过 的 所 有 变量 都 是 全 局 的 ， 这 意味 着 你 可 以 在 你 的 程序 的 任何 位 置 访 问 这 些 变量 。 很 
多 语言 学 的 好 事 者 又 该 为 此 感到 “震惊 ”了 ， 但 Perl 开 发 组 很 多 年 前 就 组 织 了 一 队 手 持 
“火把 ”的 “愤青 团 ”， 把 这 些 好 事 者 “ 赶 出 城 ”。 我 们 稍 后 会 在 第 78 页 的 “ 子 程序 中 
的 私有 变量 ”一 节 中 学 到 如 何 建立 私有 变量 。 


调用 子 程序 
你 可 以 在 任意 表达 式 中 使 用 子 程序 名 (前面 加 上 与 号 ) 来 调用 它 [过 5] ， 


&marine; # 打印 Hello，sailor number 1! 
&mazrine;j # 打印 Hello，sailor number 21 
8&marine; # 打印 Hello，sailor numbey 31 
&mazine;j # 打印 Hello，sailor number 4! 


通常 ， 我 们 把 对 子 程序 的 调用 称 为 呼叫 (caliing) 子 程序 。 除 了 上 面 例子 中 的 用 法 以 
外 ， 你 还 会 在 本 章 后 面 看 到 其 他 调用 子 程序 的 用 法 。 


注 2: 除非 你 的 子 程序 比较 特别 并 且 上 声明 了 “原型 (prototype) ”。 原 型 是 用 来 告诉 编译 器 如 
何 解析 和 解 猴 传 进来 的 参数 的 。 但 现在 这 种 用 法 已 经 非常 少见 一 一 详细 信息 请 参考 peri 
Sub 说 明文 档 。 

注 3; 如 果 你 想 了 解 这些 强 大 的 技巧 ， 站 (lexical) 变量 中 的 
代码 引用 (coderefs) 的 相关 理 

注 4: 我 们 不 会 深入 讨论 不 同 包 内 的 同名 子 程序 ， 但 我 们 的 另 一 本 书 《Intermediate Perl》 会 有 说 
明 。 

注 : 通常 还 会 在 后 面 加 上 一 对 括号 ， 哪 怕 是 空 括号 。 因 为 子 程序 会 继承 调用 者 的 @ 值 ， 这 个 
我 们 马上 将 会 讨论 ， 所 以 请 继续 阅读 ， 不 然 你 写 的 代码 的 效果 可 能 会 和 你 预期 的 不 同 1 
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返回 值 


子 程序 被 调用 时 一 定 是 作为 表达 式 的 某 个 部 分 ， 即 使 该 表达 式 的 求 值 结果 不 会 被 用 到 。 
之 前 我 们 在 调用 &mari ne 时 ， 先 对 包含 调用 动作 的 表达 式 求 值 ， 但 随即 就 把 结果 丢弃 
二 


很 多 时 候 ， 我 们 需要 调用 某 个 子 程序 并 对 它 的 返回 值 作 进 一 步 的 处 理 。 所 以 我 们 需要 注 
意 子 程序 的 返回 值 。 在 Perl 中 ， 所 有 的 子 程序 都 有 一 个 返回 值 一 一 子 程序 并 没有 “有 返 
回 值 ”或 “没有 返回 值 ”之 分 。 但 并 不 是 所 有 的 Perl 子 程序 都 包含 有 用 的 返回 值 。 


既然 任何 Perl 子 程序 都 有 返回 值 ， 那 么 规定 每 次 必须 写 “return” 某 值 就 显得 非常 费 
事 ， 所 以 Larry 将 它 简 化 了 。 在 子 程序 的 执行 过 程 中 ， 它 会 不 断 进行 运算 ， 而 最 后 一 次 
运算 的 结果 (不 管 是 什么 ) 都 会 被 自动 当成 子 程序 的 返回 值 。 


比如 我 们 定义 下 面 这 个 子 程序 ， 最 后 一 个 是 加 法 表达 式 ， 


sub Sum_of fred_and_barney 1{ 
print “Hey，you called the sum_ of _fred_and_barney SubrToutinel\n " ; 
$fred + $barney;j # 这 就 是 返回 值 

】} 


这 个 子 程序 许 里 最 后 执行 的 表达 式 就 是 计算 $fred 与 $barney 的 总 和 。 因 此 ，$fred 与 
$barney 的 总 和 就 是 返回 值 。 以 下 是 实际 运行 的 情况 ; 


$fred = 3; 
$batney = 4; 
$wilma = &sum_of_fred_and_barney; # $wilma 为 7 


print “\$wilma is $wilma.Nn"; 


$betty = 3# 8&sum of fred_and_barneyj # $betty 为 21 
pIint "\$betty is $betty.\n ; 


这 段 代 码 会 输出 以 下 内 容 : 


Hey，you called the sum_of_fred_and_barney subroutinel! 
$wilma is 7 

Hey，you called the sum_of_ fred_and_bazney subroutinel 
$betty is 21. 


此 处 的 print 语 句 只 用 于 协助 调试 ， 让 我 们 得 以 确定 该 子 程序 被 调用 到 了 ， 程 序 完工 后 
便 可 将 它 删 除 。 不 过 ， 假 设 你 在 这 段 程序 代码 的 结尾 新 增 一 条 print 语 句 ， 像 这 样 : 


sub sum_of fred_and_bazney { 
print“Hey，you called the sum_of_fred and _bazney Subroutinelxn ; 
$fred + $barney; # 这 不 是 返回 值 ! 
print“Hey，I'm Teturning a Value nowlNAn ”; # 糟糕 ! 

】 
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最 后 执行 的 表达 式 并 非 加 法 运算 ， 而 是 print 语 句 。 它 的 返回 值 通常 是 1， 表 示 “ 成 功 输 
出 信息 ” ! 往 56] ， 但 它 不 是 我 们 真正 想 要 返回 的 值 。 所 以 在 子 程序 里 增加 额外 的 程序 代 
码 时 ， 请 小 心 检查 最 后 执行 的 表达 式 是 哪 一 个 ， 确 定 它 是 你 要 的 返回 值 。 


那么 ， 那 个 第 二 个 〈 不 完善 的 ) 子 程序 中 $fred 与 $barney 相 加 的 结果 怎样 了 ? 我 们 并 没 
有 将 总 和 存储 起 来 ， 所 以 Perl 会 委 弃 它 。 启 用 警告 信息 时 ，Perl 会 注意 到 将 两 数 相 加 的 结 
果 接 弃 是 毫 无 用 处 的 ， 并 显示 “a useless use of addition in a void context” 之 类 的 信息 来 
警告 你 。 其 中 的 术语 “void contexf 【 空 上 下 文 ) ”表示 运算 结果 没有 存储 到 变量 里 ， 也 
未 被 任何 且 数 使 用 。 


“最 后 执行 的 表达 式 ”的 准确 含义 真 的 就 是 最 后 执行 的 表达 式 ， 而 非 程序 代码 的 最 后 一 
行 。 比 如 下 面 这 个 子 程序 ， 它 会 返回 $fred 和 $barney 两 者 中 值 较 大 者 ; 
sub larger_of fred_or_barney 1 
计 ($fred > $barney) 《 
$fred; 


}】 else { 
$barney; 


】 


最 后 执行 的 表达 式 是 让 成 一 行 的 $fred 或 $barney， 所 以 它们 将 充当 子 程序 的 返回 值 。 必 须 
等 到 执行 阶段 得 知 这 些 变量 的 内 容 后 ， 我 们 才 会 知道 返回 值 到 底 是 $fred 还 是 $barney。 


目前 为 止 都 还 只 是 些 范例 而 已 。 接 下 来 会 介绍 如 何在 每 次 调用 子 程序 时 传人 不 同 的 值 ， 
而 不 再 依靠 全 局 变量 。 使 用 传人 参数 才 是 我 们 最 终 的 实际 用 法 。 


参数 


假如 子 程序 larzger_of_fred_or_bazrney 不 强迫 我 们 一 定 用 全 局 变量 $fred 和 $bazrney， 那 
么 使 用 上 会 更 灵活 。 在 目前 的 状况 下 ， 假 如 我 们 想 从 $uilma 和 $betty 中 取出 较 大 值 ， 必 
须 先 将 它们 复制 到 $fred 和 $barney， 才 可 以 使 用 子 程序 larger_of_fred_or_barney。 此 
外 ， 假 如 别处 需要 用 到 $fred 和 $barney 原 本 的 值 ， 我 们 还 得 先 将 它们 复制 到 其 他 变量 ， 
比方 说 $save .fred 和 $save_barney。 然 后 当 子 程序 执行 完毕 后 ， 我 们 又 必须 将 这 些 值 复 
制 回 $fred 和 $barney。 


”还 好 ，Perl 子 程序 可 以 有 参数 (argyment) 。 要 传递 参数 列表 到 子 程序 里 ， 只 要 在 子 程 
序 调 用 的 后 面 加 上 被 括号 转 引 的 列表 表达 式 就 行 了 。 例 如 : 


注 6: pzjint 语 向 返回 的 是 执行 结果 ， 成 功 执行 返回 真 ， 否 则 返回 假 。 至 于 如 何 判断 失败 类 型 ， 
我 们 会 在 第 五 事 介 绍 。 





4n = &max(10，15); # 包含 两 个 参数 的 子 程序 调用 


参数 列表 将 会 被 传人 子 程序 ， 让 子 程序 随意 使 用 。 当 然 ， 得 先 将 这 个 列表 存在 某 处 ， 
Perl 会 自动 将 参数 列表 化 名 为 特殊 的 数组 变量 @ 该 变量 在 子 程序 执行 期 间 有 效 。 子 程 
序 可 以 访问 这 个 数组 ， 以 判断 参数 的 个 数 以 及 参数 的 值 。 


这 表示 子 程序 的 第 一 个 参数 存储 于 $_[0] ， 第 二 个 参数 存储 于 $_[1] ， 依 此 类 推 。 但 是 ， 
请 特别 注意 ， 这 些 变量 和 $ 变量 毫 无 关联 ， 就 像 $gdino[3] 〈 数 组 edino 中 的 元 素 之 一 ) 与 
$dino (一 个 独立 的 标量 变量 ) 毫 无 关联 一 样 。 参 数列 表 总 得 存 进 某 个 数组 变量 里 ， 好 
让 子 程序 使 用 ， 而 Perl 将 这 个 数组 叫做 @ ， 仅 此 而 已 。 


现在 ， 你 可 以 写 一 个 类 似 于 &lazrgex_of fred_or_bazney 的 子 程序 gmax， 但 是 可 以 使 用 子 
程序 的 第 一 个 参数 〈$_[0]) 而 不 用 $fred， 也 可 以 使 用 子 程序 的 第 二 个 参数 ($_[1]) 而 
不 用 $barney。 因 此 ， 最 后 你 可 以 写成 这 样 ; 
sub max { 
# 请 比较 它 和 子 程序 &larger_of_fred_or_barney 的 差异 
if ($ [ol >$ [31]) 
4$_[0]; 
} else { 
$_[1]; 


】} 
好 吧 ， 就 像 上 面 所 说 的 ， 你 可 以 那么 写 。 但 这 里 的 一 堆 下 标 让 程序 变 得 不 雅 观 ， 而 且 难 
以 阅读 、 编 写 、 检 查 和 调试 。 不 用 担心 ， 我 们 马上 就 会 看 到 更 好 的 办 法 。 
这 个 子 程序 还 存在 另 一 个 问题 。 人 ， 但 却 设 有 说 明 这 个 子 
程序 只 接受 两 个 参数 ， 

$n = &max(10，15，27); # 精 糕 ! 


多 余 的 参数 会 被 忽略 一 反正 子 程序 也 不 会 用 到 $_[2] ， 所 以 Perl 并 不 在 乎 里 面 是 否 有 
值 。 参 数 如 果 不 足 也 会 被 忽略 一 如 果 用 到 超出 @_ 数组 边界 的 参数 ， 只 会 得 到 undef。 
本 章 稍 后 我 们 就 会 看 到 如 何 写 出 更 好 的 gmax 子 程序 ， 并 且 让 它 可 以 配合 任意 数目 的 参 
数 。 


实际 上 ，@_ 变 量 是 子 程序 的 私有 变量 “:“” 。 假 如 已 经 有 了 全 局 变量 6 ， 则 该 变量 在 


注 7; 除非 调用 子 程 序 的 时 候 前 面 加 了 与 号 ， 且 后 面 没有 跟 括 号 (或 者 参数 ) 。 那 种 特殊 情况 


下 @_ 数组 会 从 调用 者 上 下 文中 被 继承 下 来 。 一 般 来 说 这 不 是 个 好 主意 ， 但 偶尔 也 能 派 上 
用 场 。 
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子 程序 调用 前 会 先 被 存 起 来 ， 并 在 子 程序 返回 时 恢复 原本 的 值 ! 注 8 。 这 也 表示 子 程 
序 可 以 将 参数 传 给 其 他 程序 ， 而 不 用 担心 遗失 自己 的 @ 变量 一 -就 算是 嵌 套 的 子 程序 
(nested subroutine) 调用 它 自己 的 @ 变量 时 也 一 样 。 即 使 子 程序 递归 调用 自己 ， 每 次 调 
用 的 仍然 是 一 个 新 的 6 。 所 以 在 当前 的 子 程序 调用 中 ，@ 总 是 包含 了 它 的 参数 列表 。 


子 程序 中 的 私有 变量 


既然 每 次 调用 子 程序 时 Perl 都 会 给 我 们 新 的 @6_， 难 道 不 能 利用 它 构 造 私有 变量 吗 ? 答案 
当然 是 可 以 。 


默认 情况 下 ，Perl 里 面 所 有 的 变量 都 是 全 局 变量 ， 也 就 是 说 ， 在 程序 里 的 任何 地 方 都 
可 以 访问 它们 。 但 你 随时 可 以 借助 my 操作 符 来 创建 私有 变量 ， 我 们 称 之 为 词法 变量 
(1exical yariaple) :， 
Sub max { 
my($m，$n); # 该 语句 块 中 的 新 私有 变量 


(Sm， Sn) = @ # 将 参数 赋值 给 变量 
if (和 4m > 和 4n){ 和 mmj)jelse{fd$n】 


这 些 变量 属于 封闭 语句 块 的 私有 变量 (或 者 也 可 以 称 作 有 限 作用 域 (scoped) 变量 ) ， 
语句 块 之 外 任意 地 方 的 go 或 $n 都 完全 不 受 这 两 个 私有 变量 的 影响 。 反 过 来 也 是 ， 外 部 
变量 同样 无 法 影响 内 部 的 私有 变量 ， 存 心 也 好 意外 也 罢 ， 两 不 相 犯 尘 ? 。 所 以 ， 我 们 
可 以 把 这 个 子 程序 放 进 世界 上 任何 一 个 Perl 程 序 里 ， 不 用 担心 它 和 哪个 程序 中 (可 能 存 
在 ) 的 4 和 $n 变 量 冲突 宇 !) 。 另 外 值得 一 提 的 是 ， 在 前 一 个 例子 中 的 if 语句 块 中 ， 作 
为 返回 值 的 表达 式 后 面 没 有 分 号 。 虽 然 Perl 允 许 你 省 略语 句 块 中 最 后 一 个 分 号 [ 幸 1 ， 
但 实际 上 通常 只 有 像 前 面 的 例子 那样 ， 代 码 简单 到 整个 语句 块 内 只 有 一 行 时 ， 才 可 以 省 
略 分 号 。 


前 一 个 例子 中 的 子 程序 还 可 以 进一步 简化 。 你 是 否 注意 到 列表 ($m,$n) 出 现 了 两 次 ? 


注 8; 你 也 许 认识 到 了 这 和 上 一 章 里 介绍 过 的 foreach 术 环保 存 控制 灾 量 的 机 制 相 同 ， 变 显 的 值 
部 是 被 Perl 自 动 地 保存 和 恢复 的 。 
注 9 有 经 验 的 程序 员 应 该 知道 ， 词 法 变量 可 以 通过 对 它 的 引用 ， 从 其 词法 作用 域外 部 被 访问 
到 ， 但 绝 不 是 通过 变量 名 。 有 关 引 用 的 内 容 ， 我 们 在 《Intermediate Perl》 一 书 中 有 详细 
讲解。 
注 10:; 。 当 热 ， 如 果 那 个 程序 中 碰巧 也 有 个 Bmax 子 程序 ， 那 就 肯定 会 出 筷子 。 
注 11; 分 号 的 实际 作用 仅仅 是 分 隔 语 身 ， 而 不 是 必需 的 语 身 结束 标记 。 
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其 实 my 操作 符 也 可 以 应 用 到 括号 内 的 变量 列表 ， 所 以 习惯 上 会 将 这 个 子 程序 中 的 前 两 行 
语句 合并 起 来 : ， 

”my( 御 ，$n) = @_; # 对 子 程序 的 参数 命名 
这 一 行 语 名 会 创建 私有 变量 并 为 它们 赋值 ， 让 第 一 个 参数 的 名 称 变 成 较 好 记 的 $4m， 而 第 
二 个 参数 的 则 为 $gn。 几 乎 所 有 的 子 程序 都 会 以 类 似 的 程序 代码 作为 开头 。 当 你 看 到 这 一 
行 时 就 会 知道 ， 这 个 子 程序 具有 两 个 标量 参数 ， 而 在 子 程序 内 部 ， 它 们 分 别称 为 $m 和 $n。 


THR JJ 二 》 
变 长 参数 列表 
在 真实 的 Perl 代 码 中 ， 常 常 把 更 长 的 〈 任 意 长 度 的 ) 列表 作为 参数 传 给予 程 序 。 这 延续 
了 Perl“ 去 除 不 必要 的 限制 ”的 理念 。 当 然 ， 这 和 许多 传统 程序 语言 不 一 样 ; 它们 习惯 
于 “ 强 类 型 (strictly typed) ” 子 程序 ， 也 就 是 说 ， 只 多 许 一 定 个 数 的 参数 并 且 预 先 限制 
它们 的 类 型 。Perl 的 灵活 是 件 好 事 ， 不 过 当 子 程序 以 超 乎 作者 预期 个 数 的 参数 被 调用 时 
(例如 我 们 之 前 看 到 的 子 程序 &max) ， 也 许 会 造成 问题 。 
当然 ， 通 过 检查 @ 数组 的 长 度 其 实 也 很 容易 确定 参数 个 数 是 否 正 确 。 比 方 说 ， 我 们 可 以 
将 &max 写 成 下 面 这 样 以 检查 其 参数 列表 [ 注 !2] ， 

Sub max 并 


if (@ 1!- 2) { 
print “WARNINGL &max should get exactly two argumentslNn”; 


】 
# 其 余 代 码 和 前 面 一 样 …… 


】 


上 面 的 if 判断 是 在 标量 上 下 文中 直接 使 用 数组 “名 称 ” 来 取得 数组 元 素 的 个 数 ， 你 应 该 
在 第 三 章 中 见 过 这 个 用 法 。 

但 在 实际 编写 的 Perl 程 序 中 这 种 检查 方式 很 少见 ， 更 好 的 做 法 是 让 子 程序 自动 适应 任意 
' 数目 的 参数 。 1 


改进 的 &max 子 程序 
现在 让 我 们 来 改写 amax， 使 它 能 够 接受 任意 数目 的 参数 ， 





注 12; ” 当 你 从 第 五 章 学 了 warn 数 后 ， 便 可 以 换 用 它 来 输出 合 迁 的 警告 信息 。 如 果 出 错 情 况 比 
较 严重 ， 可 以 用 die， 这 个 函数 同样 会 在 那 一 章 学 到 。 
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$maximum = &max(3，5，10，4，6); 


sub max { 
my($max_so_far) = shift @_; # 数组 中 的 第 一 个 值 ， 暂 时 把 它 当 成 最 大 值 
foreach (@_) { # 遍历 数组 @_ 中 的 其 他 元 素 


if ($_ >$max_so_far) { # 当前 元 素 比 4max_so_far 更 大 蚂 ? 
$max_ so far = $ ; 


】} 


4$max_So_far; 


上 面 的 程序 代码 使 用 了 一 般 称 为 “高 水 线 (high-watermark) ”的 算法 : 大 水 过 后 ， 在 
最 后 一 波浪 消退 时 ， 高 水 线 会 标示 出 所 见 过 的 最 高 水 位 。 本 例 中 ，4$max_so_far 记 录 了 高 
水 线 ， 所 以 最 后 $max_so_fazr 变 量 中 的 值 就 是 我 们 要 找 的 最 大 值 。 


第 一 行程 序 代 码 会 对 参数 数组 @ 进行 shift 操 作 并 将 所 得 到 的 3 (范例 程序 里 的 第 一 个 参 
数 ) 在 和 人 $max_so_ far 变量 。 所 以 @ 现在 的 内 容 为 (5,10,4,6)， 因 为 3 已 被 移 走 。 现 在 最 
大 的 数字 是 目前 唯一 见 过 的 值 : 3， 也 就 是 第 一 个 参数 。 


然后 foreach 循 环 会 遍历 参数 列表 @_ 里 剩余 的 元 素 。 循 环 的 控制 变量 默认 为 $_( 别 忘 了 @_ 
和 $_ 没有 任何 关系 ， 它 们 的 名 称 相似 纯 属 巧合 ) 。 循 环 第 一 次 执行 时 ，$_ 是 5， 而 if 进行 
比较 时 看 到 $ 比 4max_so_far 还 大 ， 所 以 $max_so_faz 会 被 设 成 5 一 一 新 的 高 水 线 。 


第 三 次 循环 时 ，$ 是 10。 这 是 新 的 最 大 值 ， 所 以 它 会 被 存 和 人 4$max_so_far。 


到 第 四 次 时 ，$ 是 4。 这 时 :if 比较 的 结果 为 假 ， 因 为 $ 不比 gmax_so_far ( 即 10) 大 ， 所 
以 会 跳 过 计 里 的 程序 代码 。 

最 后 ，$ 是 6， 因 此 if 里 的 程序 代码 又 被 跳 过 一 次 。 这 是 最 后 一 次 执行 循环 ， 所 以 整 段 循 
环 就 执行 完了 。 


此 时 ，4$max_so_far 就 变 成 了 我 们 的 返回 值 。 既 然 它 是 目前 见 过 的 最 大 值 ， 并 且 我 们 已 经 
遍历 过 所 有 数字 ， 那 它 一 定 是 列表 中 最 大 的 值 : 10。 


- 空 参数 列表 
即使 有 超过 两 个 的 参数 ， 改 进 后 的 amax 算 法 仍然 可 以 得 出 正确 结果 。 但 假如 没有 任何 参 
数 传人 ， 又 会 发 生 什么 事情 呢 ? 


乍 听 之 下 ， 这 似乎 有 点 杞 人 忧 和 天。 毕竟， 怎么 可 能 会 有 人 调用 gmax 却 不 传人 任何 参数 
呢 ? 不 过 ， 也 许 有 人 会 写 出 下 面 这 样 的 代码 : 


$maximum = &max(@numbers); 
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数组 numbers 有 时 可 能 只 是 一 个 空 列表 。 比 如 ， 也 许 数组 内 容 是 程序 从 文件 读 入 的 ， 但 
文件 却 是 空 的 。 所 以 ， 这 种 情况 下 &max 会 如 何 处 理 ? 


子 程序 的 第 一 行 会 对 参数 数组 @ (现在 是 空 的 ) 进行 shift 操 作 ， 以 此 作为 gax so fa 
的 值 。 这 并 不 会 出 错 ， 因 为 数组 是 空 的 ， 所 以 shift 会 返回 undef 给 $max_so_far。 


现在 foreach 循 环 要 遍历 @ 数组 ， 但 由 于 它 是 空 的 ， 所 以 循环 本 身 不 会 执行 。 


接 下 来 ，Perl 会 将 gmax_so fa 的 值 undef 作 为 子 程序 的 返回 值 。 从 某 种 角度 来 看 ， 那 是 
正确 的 结果 ， 因 为 在 空 列表 中 没有 最 大 值 。 


当然 ， 调 用 这 个 子 程序 的 人 得 留意 ， 返 回 值 可 能 是 undef 一 一 除非 他 能 确保 参数 列表 不 为 


APe 
乞 
个。 


-> * 二 | 、 ms 旦 
关于 词法 (my) 变量 
事实 上 ， 词 法 变量 可 使 用 在 任何 语句 块 内 ， 而 不 仅 限 于 子 程序 的 语句 块 。 比 如 说 ， 它 可 
以 在 计 、while 或 foreach 的 语句 块 里 使 用 : 
foreach (1,..10) { 


my($sdquare) = $_ * $ ; # 该 循环 中 的 私有 变量 


print "$_ squared is $square An ; 


上 面 的 例子 中 ， 变 量 $square 对 其 所 属 语句 块 〈 也 就 是 foreach 循 环 的 语句 块 ) 来 说 是 私 
有 的 。 如 果 变 量 的 定义 并 未 出 现在 任何 语句 块 里 ， 则 该 变量 对 于 整个 程序 源 文件 来 说 就 
是 私有 的 。 到 目前 为 止 ， 你 的 程序 还 用 不 到 两 个 以 上 的 程序 源 文件 [过 3] ， 所 以 这 还 不 
成 问题 。 这 里 的 重点 在 于 ， 词 法 变量 的 作用 域 (scope) 受 限 于 定义 它 的 最 内 层 语句 块 
(或 文件 ) 。 只 有 语句 块 上 下 文 作用 域内 的 程序 代码 才能 以 $s quare 这 个 名 称 使 用 该 变 
量 。 这 为 程序 维护 提供 了 便利 。 如 果 $square 的 值 出 错 了 ， 那 么 就 可 以 在 有 限 的 源 代码 
范围 内 找到 原因 。 有 经 验 的 程序 员 都 知道 (这 往往 是 付出 惨痛 代价 换 来 的 ) ， 将 变量 作 
用 域 圈定 在 一 页 或 少数 几 行 代码 内 ， 的 确 能 加 快 开发 及 测试 周期 。 


还 需要 注意 的 是 ，my 操 作 符 并 不 会 更 改变 量 赋值 时 的 上 下 文 : 


my($num) = @_; # 列表 上 上 下文， 和 ($num) = @_; 相同 
my $num = @; # 标量 上 下 文 ， 和 $num = @_; 相同 


在 第 一 行 里 ， 按 照 列表 上 下 文 ，$num 会 被 设 为 第 一 个 参数 ， 在 第 二 行 里 ， 按 照 标量 上 下 





注 13:; ”我 们 在 《Intermediate Perl》 一 书 中 有 谈 到 可 供 重 复 使 用 的 摩 与 模块 的 概念 。 
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文 ， 它 会 被 设 为 参数 的 个 数 。 这 两 行 都 有 可 能 是 程序 员 的 本 意 ， 我 们 并 不 能 单 从 一 行程 
序 代码 断定 你 要 的 是 哪个 ， 因 此 在 你 搞 错 时 ，Perl 无 法 提出 警告 (当然 ， 你 不 会 真 的 把 
这 两 行 放 在 同一 个 子 程序 里 ， 因 为 相同 的 作用 域内 不 能 定义 两 个 同名 的 词法 变量 ， 以 上 
只 是 举例 而 已 ) 。 所 以 ， 看 到 这 样 的 程序 代码 时 ， 你 可 以 忽略 my 这 个 词 ， 直 接 判 断 变量 
赋值 时 的 上 下 文 。 

请 记 住 ， 在 my 操作 符 不 加 括号 时 ， 只 能 用 来 声明 单个 词法 变量 [入 14] ， 


my $fred，$barney; # 错 ! 设 声 明 $barney 
my($fred，$barney); # 两 个 都 声明 了 


当然 ， 你 也 可 以 使 用 my 来 创建 新 的 私有 数组 六 5 : 
my @phone_numbez; 


所 有 新 变量 的 值 一 开始 都 是 空 的 : 标量 被 设 为 undef， 数 组 被 设 为 空 列表 。 


在 日 常 Perl 编 程 当中 ， 你 最 好 对 每 个 新 变量 都 使 用 my 声明 ， 让 它 保 持 在 自己 所 在 的 词法 
作用 域内 。 在 第 三 章 中 ， 你 已 经 看 到 过 如 何在 foreach 循 环 中 定义 自己 的 控制 变量 ， 而 
这 个 控制 变量 也 可 以 声明 为 词法 变量 ， 


foreach my $rock (qw/bedrock slate lava /) 1{ 
print "One xock is $rock.N\n?; 和 ## 依次 输出 每 块 石头 的 名 字 


这 一 点 很 重要 ， 接 下 来 的 小 节 里 ， 我 们 会 全 面 使 用 这 种 声明 变量 的 方式 。 


Use strict 编 译 指 令 


Per] 是 一 门 相当 宽容 的 编程 语言 纤 !6] 。 但 你 也 许 希 望 Perl 能 更 严格 一 些 ， 多 一 点 约束 
力 。 要 达成 这 一 点 ， 不 妨 试 试看 use strict 编 译 指令 


所 谓 编译 指令 (pragma) ， 其 实 不 过 是 提供 给 编译 器 的 某 些 指示 ， 告 诉 它 如 何 处 理 接 下 
来 的 代码 。 这 里 的 use strict 编 译 指令 是 要 告诉 Perl 内 部 的 编译 器 接 下 来 (代码 块 或 是 
程序 源 文 件 中 ) 的 代码 应 该 稍 加 严谨 一 点 ， 遵 循 一 些 优 良 的 编程 风格 。 


， 注 14: 和 往常 一 样 ， 打 开 警 告 开 关 可 以 在 滥用 my 的 时 候 发 出 警告 信息 。 而 如 果 使 用 strict 编 译 
指令 〈 精 后 会 提 及 ) 的 语 ， 就 会 在 一 开始 就 禁止 滥用 行为 。 

注 1$: ”或 者 输 项 也 行 ， 这 个 你 将 在 第 六 章 看 到 。 

注 16: ”我 猜 你 大 概 还 没 注 意 到 。 


这 么 做 的 重要 性 何在 ? 嗯 ， 设 想 你 正在 写 程序 并 键入 下 面 这 行 代 码 ， 
$bamm_bamm = 3; # Perl 会 自动 创建 这 个 变量 


然后 你 继续 写 了 一 些 代码 。 当 上 一 行 代码 被 新 写 的 代码 挤 出 屏幕 顶端 后 ， 你 又 写 了 下 面 
这 行 代 码 ， 想 增加 那个 变量 的 值 : 


$bammbamm += 1) # 精 了 ! 


因为 Perl 看 到 了 一 个 新 的 变量 名 (变量 名 中 的 下 划 线 是 有 意义 的 ) ， 它 会 创建 一 个 新 的 
变量 ， 然 后 增加 它 的 值 。 如 果 你 有 先 见 之 明 ， 已 经 启用 了 警告 功能 ， 那 么 Perl 就 会 警告 
你 这 两 个 《或 其 中 之 一 ) 全 局 变量 名 在 程序 中 只 出 现 过 一 次 。 可 是 ， 如 果 你 不 够 谨慎 ， 
那么 这 两 个 变量 名 都 会 在 程序 里 并 存 ，Penl 也 并 不 发 出 警告 。 


要 告诉 Perl 你 愿意 接受 更 严格 的 限制 ， 请 将 use strict 这 个 编译 指令 放 在 程序 开头 (或 
者 任何 需要 强制 使 用 约束 规则 的 语句 块 或 文件 内 ) : 


use strict; ## 强制 使 用 一 些 严格 的 、 良 好 的 编程 风格 
从 Perl 5.12 开 始 ， 如 果 使 用 编译 指令 指定 最 低 Perl 版 本 号 的 话 ， 就 相当 于 隐 式 打开 约束 指 


令 ; 


use 5.012; # 自动 加 载 strict 编 译 指令 


现在 ， 所 有 的 约束 当中 二") ，Perl 首 先 会 坚持 要 求 你 声明 所 有 新 出 现 的 变量 。 一 般 加 
上 my 就 可 以 了 [E181 ， 

my $bamm_bamm = 3; # 新 的 词法 变量 
现在 ， 如 果 你 再 像 之 前 那样 拼 错 变量 名 ，Perl 就 会 抗议 ， 说 你 从 未 声明 过 $bammbamm 这 个 
变量 ， 因 此 错误 在 编译 阶段 就 会 被 找 出 来 


$bammbamm += 1; # 无 此 变量 ;属于 编译 时 致命 错误 
当然 ， 此 限制 只 适用 于 新 创建 的 变量 ，Perl 的 内 置 变量 (比如 $_ 和 6@_) 则 完全 不 用 事先 


注 17: “要 学 习 其 他 的 限制 规则 ， 请 阅读 stYict 的 说 明文 档 。 知 道 任何 编译 指令 的 名 字 也 就 知道 
了 相应 文档 名 ， 所 以 你 可 以 使 用 peridoc sirict (或 者 你 的 系统 上 的 查看 文档 命令 ) 来 查看 
strict 的 文档 。 简 单 来 说 ， 大 多 数 情况 下 其 他 的 限制 规则 会 要 求 对 字符 事 使 用 引号 ， 并 
且 所 有 的 引用 必须 是 硬 引 用 (我 们 不 会 在 这 里 讨论 关于 引用 的 概念 ， 不 管 是 软 饮 用 还 是 
硬 引 用 ， 但 在 《Intermediate Perl》 一 书 中 会 有 详细 讲解 ) 。 放 心 ， 这 些 限 制 规则 不 会 对 
Perl 的 初学 者 造成 困扰 。 

注 18: ”当然 除 此 之 外 ， 还 有 别 的 声明 方式 。 
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声明 [ 疆 !91 。 如 果 你 在 程序 写 完 之 后 再 加 use strict， 通 常会 得 到 一 大 维 警告 信息 ， 所 
以 如 果 有 需要 ， 最 好 在 开始 写 程序 时 就 用 它 。 


根据 大 部 分 人 的 建议 ， 比 整个 屏幕 长 的 程序 都 应 该 加 上 use strict。 这 一 点 我 们 也 相当 
认同 。 


从 现在 开始 ， 即 使 没有 清楚 写 出 use strict， 我 们 所 提供 的 大 部 分 (但 并 非 全 部 ) 范例 
程序 都 会 在 它 的 限制 下 执行 。 也 就 是 说 ， 在 合适 的 位 置 尽 可 能 用 my 来 声明 变量 。 不 过 ， 
即使 我 们 没有 从 头 到 尾 都 这 样 做 ， 仍 然 建议 你 尽 可 能 在 程序 里 加 进 use strict。 时 间 久 
了 ， 你 就 会 感激 我 们 的 。 


return 操 作 符 


如 果 想 在 子 程序 执行 到 一 半 时 停止 执行 ， 该 怎么 办 昵 ? 这 正 是 return 操 作 符 要 做 的 事 ， 
它 会 立即 停止 执行 并 从 子 程 序 内 返回 某 个 值 : 


my @names = qW/ fred barney betty dino wilma pebbles bamm-bamm /; 
my $result = 8&which_element_is("dino"，@names); 


sub which_element_is 1{ 
my($what，@array) = @ ; 
foreach (0. ,4#array) { # 数组 array 中 所 有 元 素 的 索引 
评 ($what eq $array[$ ]) 攻 
return $_; # 一 发 现 就 提前 返回 


】} 
-1 # 没 找到 符合 条 件 的 元 素 ( 写 不 写 return 都 没关系 ) 
】 | 
我 们 希望 这 个 子 程序 能 找 出 enames 数 组 中 值 为 dino 的 元 素 的 索引 。 首 先 ， 用 my 声明 参数 
名 : 一 个 是 物 hat， 表 示 要 搜索 的 内 容 ， 另 一 个 是 earray， 表 示 供 搜索 的 目标 数组 。 请 看 
”上 面 的 代码 ， 这 个 数组 其 实 是 enames 的 拷贝 。foreach 循 环 依次 取出 eartay 的 索引 值 (第 
一 个 索引 值 为 0， 最 后 一 个 素 引 值 为 $#array， 这 个 我 们 已 经 在 第 三 章 见 到 过 了 ) 。 


每 一 次 执行 foreach 循 环 时 ， 我 们 会 检查 知 hat 中 的 字符 串 是 否 等 于 [ 往 20] 位 于 当前 索引 


注 19: “另外 最 好 别 声 明 $a 和 $b 这 两 个 变量 ， 因 为 在 某 些 情况 下 ， 它 们 默认 被 用 作 sort 函 数 的 内 
置 变量 ， 换 用 其 他 的 变量 名 吧 。 事 实 上 use strict 不 能 限制 这 两 个 变量 ， 而 这 居然 也 常 
被 当 作 bug 提 交 给 Perl 维 护 者 。 


注 20: ， 这 里 用 的 是 字符 串 相 等 比较 符 eq， 而 不 是 数值 相等 比较 符 ==， 你 注意 到 这 点 了 吗 ? 
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的 数组 earray 的 元 素 。 如 果 两 者 相等 ， 我 们 就 立刻 返回 其 索引 值 。 这 是 关键 字 return 最 
常见 的 用 法 : 立即 返回 某 个 值 ， 而 不 再 执行 子 程序 的 其 佘 部 分 。 


但 是 ， 假 如 我 们 找 不 到 符合 条 件 的 那个 元 素 呢 ? 本 例 中 ， 子 程序 的 作者 选择 返回 -1 作 
为 “ 查 无 此 值 ” 的 数字 代号 。 虽 然 在 这 个 例子 里 ， 和 返回 undef 可 能 会 更 符合 Perl 的 风格 
(Perlish) ， 但 他 还 是 决定 用 -1。 最 后 一 行 写 成 Yetuzn -1 也 行 ， 但 实际 上 return 并 不 是 
必需 的 。 


有 些 程序 员 在 每 次 返回 值 时 都 会 用 return， 以 明确 表明 它 是 返回 值 。 比如 在 子 程序 执行 
到 中 间 部 分 就 已 经 得 出 结论 的 话 ， 就 可 以 使 用 ret urn 关 键 字 立 即 返 回 ， 就 像 本 章 之 前 提 
到 8 纪 Larger_of_ fred_or _barney 时 说 的 那样 。 而 到 子 程序 末尾 再 返回 结果 的 话 ， 则 完全 可 . 
以 省 略 return， 当 然 写 了 也 没什么 坏处 。 只 是 很 多 Perl 程 序 员 都 觉得 那 是 完全 多 余 的 7 次 
按键 罢了 。 


省 略 与 号 

遵照 先前 的 承诺 ， 我 们 现在 要 告诉 你 ， 在 调用 子 程序 时 何 时 可 以 省 略 与 号 。 如 果 编 译 
器 在 调用 子 程序 前 看 到 过 子 程序 的 定义 ， 或 者 Perl 通 过 语法 规则 判断 它 只 能 是 子 程序 调 
” 用， 那么 对 待 该 子 程序 就 可 以 像 内 置 函 数 那样 ， 在 调用 时 省 略 与 号 《不 过 我 们 马上 就 会 
看 到 ， 这 个 规则 其 实 还 灌 藏 了 一 个 例外 ) 。 


换 名 话说 ， 假 如 Perl 单 从 语法 上 便 能 看 出 它 是 省 略 了 与 号 的 子 程序 调用 ， 通 常 就 不 会 有 
什么 问题 。 也 就 是 说 ， 你 只 要 将 参数 列表 放 进 括号 里 ， 它 就 一 定 是 函数 [ 往 211 调用 ， 


my @cards = shuffle(@deck_of_carzds); # 8&shuffle 上 的 & 是 多 余 的 


或 者 ， 如 果 Perl 的 内 部 编译 器 已 经 见 过 子 程序 的 定义 ， 那 么 通常 也 可 以 省 略 与 号 。 并 
且 ， 连 参数 列表 两 边 的 括号 都 可 以 省 略 : 


sub division { 


$_[o] / $_[1]; ” # 用 第 一 个 参数 除 以 第 二 个 参数 


my $quotient = division 355，113; # 用 的 就 是 之 前 定义 的 &division 
上 面 的 程序 之 所 以 能 够 运行 ， 是 因为 它 符 合 “ 加 不 加 括号 都 不 会 产生 歧义 ”的 原则 。 
但 不 要 把 子 程序 六 定义 放 在 调用 语 匀 的 后 面 ， 否则 编译 器 就 无 法 提前 判断 division 的 意 





注 21: ”在 本 例 中 ， 这 个 函数 就 是 子 程序 8shuff]e。 但 正如 你 将 要 看 到 的 那样 ， 它 也 可 能 是 个 
内 置 函 数 。 
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义 。 编 译 器 需要 在 子 程序 调用 前 先 看 到 子 程序 定义 ， 才 有 办 法 像 对 内 置 函 数 般 调用 该 子 
程序 ， 否 则 ， 编 译 器 不 知道 该 如 何 处 理 这 个 表达 式 。 


不 过 这 还 不 算 之 前 提 到 的 例外 。 真 正 的 例外 是 : 假如 这 个 子 程序 和 Perl 内 置 函 数 同名 ， 
你 就 必须 使 用 与 号 调用 。 原 因 很 简单 ， 也 是 为 了 避免 歧义 。 加 上 与 号 ， 就 说 明 调 用 的 是 
你 自己 定义 的 子 程序 。 所 以 只 能 在 没有 同名 内 置 负 数 的 情况 下 省 略 与 号 : 


sub chomp { 
print “Munch，munchlNn"; 


8&chomp; # 这 里 必须 使 用 8&， 绝 不 能 省 略 ! 


如 果 少 了 与 号 ， 就 算 之 前 定义 过 子 程序 kchomp， 实 际 仍然 会 调用 内 置 函 数 chomp。 所 
以 ， 真 正 的 省 略 规则 如 下 ， 除非 你 知道 Perl 所 有 的 内 置 函 数 名 ， 否 则 请 务必 在 调用 函数 
时 使 用 与 号 。 这 意味 着 ， 你 最 初 写 的 100 个 程序 应 该 始终 加 上 与 号 。 但 若 看 到 别人 的 程 
序 中 省 略 与 号 的 写法 ， 那 未 必 是 错 的 ， 也 许 他 很 清楚 Perl 没 有 这 个 名 字 的 内 置 函 数 [ 注 
221 。 当 程序 员 打算 以 调用 Perl 内 置 函 数 的 方式 来 调用 自己 的 子 程序 时 ， 通 常 是 在 编写 模 
块 (module) 的 时 候 ， 他 们 经 常 使 用 原型 (prototype) 来 告诉 Perl 该 如 何 对 待 子 程序 的 
参数 。 构 造 模块 是 高 级 主题 ， 如 果 你 已 经 预备 好 了 ， 可 以 参阅 PerI 的 说 明文 档 (特别 是 
Perimod 和 perlsub 文 档 ) ， 以 便 了 解 更 多 关于 子 程序 原型 和 构造 模块 的 信息 [23 。 


非 标量 返回 值 
子 程序 不 仅 可 以 返回 标量 值 ， 如 果 你 在 列表 上 下 文 调用 它 [ 考 241 ， 它 还 能 返回 列表 值 。 


假设 你 想 取出 某 段 范围 的 数字 (如 同 范 围 操作 符 , .的 递增 序列 ) ， 只 是 你 不 但 想 递增 ， 
还 想 递 减 序列 。 虽 然 范围 操作 符 只 能 产生 递增 序列 ， 不 过 要 反 过 来 取 也 不 是 什么 难事 : 
sub 1ist_ from fred to_barney 1 
计 ($fred《〈 $barney) 1{ 
# 从 $fred 数 到 $barney 


$fred. .$barney; 
else { 


注 22: 当然 ， 也 可 能 的 确 是 个 错误 。 完 竟 如 何 ， 不 妨 打 开 perlPunc 和 perlop 文 档 看 一 看 是 否 有 同 
名 的 内 置 阵 数 。 另 外 ， 如 果 打 开 了 登 告 开关 ，Perl 会 给 你 相关 的 你 告 信息 。 


注 23 : 或 者 ， 进 阶 阅读 《Intermediate Perl》 一 书 。 


注 24:; “你 可 以 用 wantarTay 函 数 来 判断 子 程序 是 在 标量 上 下 文 还 是 列表 上 下 文 环 境 中 执行 ， 它 可 
以 让 你 写 的 子 程序 更 加 智能 ， 看 外 面 的 需要 返回 特定 的 标量 值 或 列表 值 。 





# 从 $fred 倒数 同 $barney 
TeveISse $barney. .$fred; 


】 
】} 
$fred = 11; 
$barney = 6; 


@c = &list _ from_fred to_barney; # @c 的 值 为 (11，10，9，8，7，6) 


此 例 中 ， 我 们 会 先 用 范围 操作 符 取 得 从 6 到 11 的 列表 ， 再 用 revetrse 操 作 符 把 它 反 转 过 
来 。 最 后 的 结果 就 是 我 们 想 要 的 ， 从 $fred(11) 倒 数 到 $barney(6) 的 列表 


其 实 你 还 可 以 什么 都 不 返回 。 单 写 一 个 return 不 给 任何 参数 时 ， 在 标量 上 下 文中 的 返回 
值 就 是 undef， 在 列表 上 下 文中 则 是 空 列 表 。 这 通常 用 于 表示 子 程序 执行 有 误 ， 它 告诉 
调用 者 无 法 取得 有 意义 的 返回 值 。 


持久 性 私有 变量 


在 子 程序 中 可 以 使 用 my 操作 符 来 创建 私有 变量 ， 但 每 次 调用 这 个 子 程序 的 时 候 ， 这 个 私 
有 变量 都 会 被 重新 定义 。 而 使 用 state 操 作 符 来 声明 变量 ， 我 们 便 可 以 在 子 程序 的 多 次 
调用 期 间 保留 变量 之 前 的 值 ， 并 将 变量 的 作用 域 局 限于 子 程序 内 部 。 


回 到 本 章 第 一 个 例子 ， 我 们 有 个 名 为 marine 的 子 程序 ， 它 会 使 全 局 变量 的 值 每 次 递增 ; 


sub marine {f 
$n += 1; # 全 局 变量 $n 
print "Hello，sailor number $niNn"; 


] 


既然 刚 介 绍 过 strict， 不 妨 把 它 加 到 这 段 程序 中 。 很 快 你 就 会 发 现 ， 全 局 变量 和 从 未 被 
声明 ，Perl 立 即 提示 错误 。 此 外 ， 我 们 也 不 能 用 my 声明 $n 为 词法 变量 ， 因 为 词法 变量 无 
法 存续 ， 语 名 块 一 结束 ， 它 的 值 就 会 被 抛弃 。 


我 们 可 以 用 state 来 声明 变量 ， 它 会 告诉 Perl 该 变量 属于 当前 子 程序 的 私有 变量 ， 并 且 在 
多 次 调用 这 个 子 程序 期 间 保留 该 变量 的 值 。 这 个 特性 是 从 Perl 5.10 开 始 引入 的 ; 


Use 5.010j 


sub marine { 
state $n = 0; # 持久 性 私有 变量 $n 
$n += 1; 
Print “Hello，sailor numbez $nlNn”; 


] 


现在 我 们 可 以 在 用 了 strict 编 译 指令 并 且 不 用 全 局 变量 的 前 提 下 得 到 和 之 前 相同 的 输 
出 。 第 一 次 调用 该 子 程序 时 ，Perl 声 明 并 初始 化 变量 gn， 而 在 接 下 来 的 调用 中 ， 这 个 表 
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达 式 将 被 Per 忽略。 每 次 子 程序 返回 后 ，Peri 都 会 将 变量 $n 的 当前 值 保 留 下 来 ， 以 备 下 次 
调用 时 再 用 。 
类 似 标 量变 量 ， 其 他 任意 类 型 的 变量 都 可 以 被 声明 为 state 变 量 。 下 面 的 子 程序 可 以 通过 
声明 state 数 组 来 保留 它 的 参数 及 计算 总 和 ， 
use 5.010; 
Tunning_sum( 5，6 ); 
Tunning_sum( 1..3 ); 
running_sum( 4 ); 
sub Yunning_sum 
state $sum = 0; 
state @numbers; 
foreach my $numbetr ( @_ ){ 
push @numbers，$numbez; 
$sum += $numbez; 


】 


say "The Sum of (@numbers) is $sum"; 


每 次 我 们 调用 这 个 子 程序 的 时 候 ， 它 都 会 将 新 的 参数 与 之 前 的 参数 相 加 ， 因 此 每 次 都 会 
输出 一 个 新 的 总 和 ， 
The sum of (5 6) is 11 


The sum of (5 6123) is 17 
The sum of (5 61234) is21 


但 是 在 使 用 数组 和 哈 希 类 型 的 state 变 量 时 ， 还 是 有 一 些 轻微 限制 的 。 在 Perl 5.10 中 我 们 
不 能 在 列表 上 下 文中 初始 化 这 两 种 类 型 的 state 变 量 : 


State @array = quw(a b c); # 错误 ! 


这 样 做 会 报错 ， 并 提示 将 来 版 本 的 Pen 也 许 支持 这 种 方式 。 而 现在 到 了 Perl 5.14， 我 们 还 
是 无 法 这 么 用 : 


Initialization of state varziables in list context CUIYently forbidden ..，. 
| 旦 
习 赴 
以 下 习题 答案 参见 第 311 页 上 的 “第 四 章 习 题解 答 ” 一 节 ， 


1 [12] 写 一 个 名 为 total 的 子 程序 ， 它 避 以 返回 给 定 列表 中 数字 相 加 的 总 和 。 提 示 : 
该 子 程序 不 需要 执行 任何 IO， 它 只 需要 按 要 求 处 理 它 的 参数 并 给 调用 者 返回 一 个 





值 就 行 了 。 用 下 面 这 个 程序 来 检验 一 下 你 写 完 的 子 程序 ， 第 一 次 调用 时 返回 的 列表 
中 数字 的 总 和 应 该 是 25 。 


my efred = qW{ 13579》 

my $fred total = total(@fred); 

print “The total of \@fred is $fred_ total.\n "; 
print "Enter some numbers on Separate lines: “; 
my $user_total = total(<STDIN> ); 


pzint "The total of those numbers js $user total.\n"j 
[5] 使 用 之 前 程序 中 的 子 程序 ， 计 算 从 1 加 到 1 000 的 总 和 。 


[18] 额 外 附加 题 ， 写 一 个 名 为 8a bove_average 的 子 程序 ， 当 给 定 一 个 包含 多 个 数字 
的 列表 时 ， 返 回 其 中 大 于 这 些 数 平 均值 的 数 。 (提示 : 另外 写 一 个 子 程序 ， 通 过 用 
这 些 数 的 总 和 除 以 列表 中 数字 的 个 数 来 计算 它们 的 平均 值 。) 当 你 写 完 后 ， 用 下 面 
的 程序 检验 一 下 。 

my @fred = above_average(1..10); 

print "Nefred is 6@fredN\n” ; 

pzrint "(Should be 6 7 8 9 10)Nn"; 

my @barney = above_average(100，1..10); 


print "\e@barzney is 6@bazney\n ”; 
print "(Should be just 100)NAn”; 


[10] 写 一 个 名 为 greet 的 子 程序 ， 当 给 定 一 个 人 名 作为 参数 时 ， 打 印 出 欢迎 他 的 信 
息 ， 并 告诉 他 前 一 个 来 宾 的 名 字 : 


greet( "Fred”); 
greet( “Barney”); 


按照 语 名 的 顺序 ， 它 应 该 打印 出 : 


Hi Fredl You are the first one herel 
. Hi Barneyl Fred jis also herel 


[10] 修 改 前 面 这 个 程序 ， 告 诉 所 有 新 来 的 人 之 前 已 经 迎接 了 哪些 人 : 


greet( "Fred”); 

greet( "Barzney” ); 
greet( “Wilma”); 
gzreet( “Betty” ) ; 


按照 语句 的 顺序 ， 它 应 该 打印 出 : 


Hi Fredl You are the first one herel 
Hi Barneyl I've Seen:; Fred 

Hi Wilmal I ve Seen: Fred Barney 

Hi Betty! I "ve seen: Fred Barney Wilma 
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第 五 章 


输入 与 输出 


先前 为 了 习题 的 需要 我 们 已 经 介绍 过 输入 /输出 (inputoutput， 简 称 MO) 的 一 些 用 
法 。 现 在 则 要 涉及 日 常 编程 中 会 遇 到 的 大 多 数 ( 约 80%) 的 IO 问题 。 对 于 标准 输入 、 标 
准 输出 以 及 标准 错误 这 几 个 概念 ， 如 果 你 早已 熟知 ， 那 算是 处 于 超前 状态 。 要 是 不 熟 ， 
读 完 本 章 也 该 可 以 迎头 赶 上 。 现 在 ， 就 让 我 们 先 将 “标准 输入 ”当成 “键盘 *s ， 将 “ 标 
准 输出 ”当成 “屏幕 ”好 了 。 


读 取 标 准 输入 
读 取 标准 输入 流 相当 容易 ， 我 们 在 前 面 已 经 用 过 行 输入 操作 符 C5STDIN> [ 注 ] 。 在 标量 上 
下 文中 执行 该 操作 时 ， 将 会 返回 标准 输入 中 的 下 一 行 


$line =《STDIN>; # 读 取 下 一 行 
chomp($line); # 截 掉 最 后 的 换行 符 
chomp($line = 《STDIN>); # 习惯 用 法 ， 效 果 同 上 


如 果 读 到 文件 结尾 (end-of-file) ， 行 输入 操作 符 就 会 返回 undef。 这 样 的 设计 是 为 了 配 
合 循环 使 用 ， 可 以 自然 跳出 循环 ， 


while (defined($line =《STDIN>)) { 
pirint "I saw $1ine"; 


第 一 行程 序 代码 做 了 许多 事 : 读 取 标准 输入 ， 将 它 存 人 某 个 变量 ， 检 查 变 量 的 值 是 否 被 


注 1: 我 们 称 <STDIN> 为 行 输入 操作 符 ， 实 际 上 它 是 针对 文件 句柄 (Filehandie) 的 行 输入 操作 符 
(用 炎 持 号 表示 ) 。 关 于 文件 句柄 ， 我 们 将 在 本 章 稍 后 讨论 。 
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定义 ， 以 及 我 们 是 否 该 执行 whi1le 循 环 的 主体 〈 也 就 是 还 没 遇 到 输入 的 结尾 ) 。 因 此 在 
循环 主体 内 ， 我 们 会 在 $Line 变 量 里 看 到 各 行 输入 的 内 容 于 2? 。 这 是 十 分 常见 的 操作 ， 
所 以 Perl 顺 理 成 章 为 它 定义 了 一 个 简写 ， 如 下 所 示 : 


whjile (<STDIN>) { 
print "TI Saw $“; 
】} 


Larry 从 一 扒 冷 俯 的 符号 中 找到 一 对 尖 括 号 ， 创 造 出 了 这 个 简写 。 换 名 话说， 从 字面 上 来 
讲 ， 它 的 意思 是 : “ 读 取 一 行 标准 输入 ， 看 它 是 不 是 为 真 (通常 是 ) 。 若 是 真 ， 就 进入 
While 循环 ， 并 在 下 次 循环 时 忘记 刚刚 读 入 的 那 一 行 ， 进 入 下 一 行 ! ”Iarry 为 这 个 无 用 
的 语法 赋予 了 有 用 的 意义 。 

它 实 际 上 和 前 面 的 第 一 个 循环 相同 ， 它 告诉 Perl 将 标准 输入 读 进 某 个 变量 ， (只 要 能 读 
到 内 容 ， 表 示 还 没 到 达 文 件 结尾 ) 然后 进入 while 循 环 。 然 而 这 次 Perl 并 不 是 把 它 读 入 
$line 里 ， 而 是 放 进 它 的 默认 变量 $ 中 ， 就 好 比 执行 了 下 面 的 代码 : 


While (defined($_ =《STDIN>)) { 
print "I saw $“”; 


继续 看 下 去 之 前 ， 我 们 必须 讲 清楚 一 件 事 ， 这 个 简写 只 有 在 最 早 的 写法 中 才能 正常 运 
行 。 如 果 你 将 行 输入 操作 符 放 在 其 他 任何 地 方 〈 特 别 是 自 成 一 行 的 语句 ) ， 它 并 不 会 读 
取 一 行 输入 并 自动 存 入 默认 变量 $_ 。 唯 独 while 循 环 的 条 件 表达 式 里 只 有 行 输入 操作 符 的 
前 提 下 ， 这 个 简写 才 起 作用 [ 注 3] 。 假 如 条 件 表达 式 里 放 了 其 他 东西 ， 它 就 无 法 按 你 的 
预期 运行 了 。 

行 输入 操作 符 (<STDIN>) 和 Perl 的 默认 变量 ($_) 之 间 并 没有 什么 关联 ， 只 是 在 这 个 简 
写 里 ， 输 入 的 内 容 会 恰好 存储 在 默认 变量 中 而 已 。 


然而 ， 如 果 在 列表 上 下 文中 调用 行 输入 操作 符 ， 它 会 返回 一 个 列表 ， 其 中 包含 其余) 
所 有 的 输入 内 容 ， 每 个 列表 元 素 代 表 一 行 输入 内 容 : 


foreach (<STDIN>) 【 
print "I Saw $“; 
】 


再 次 强调 ， 行 输入 操作 符 和 Per1 的 默认 变量 〈$_) 之 间 并 没有 任何 关联 ， 只 是 在 这 个 例 


注 2: 可 能 你 注意 到 了 在 这 里 我 们 没有 使 用 chomp 函 数 。 一 般 我 们 把 chomp 写 在 循环 体内 的 第 一 
行 ， 而 不 是 放 在 循环 的 条 件 表 达 式 中 。 在 接 下 来 的 事 节 中 ， 你 会 看 到 很 多 这 样 的 用 法 。 
注 3 : 好 吧 ， 其 实 某 种 程度 上 for 御 环 就 相当 于 while 牢 环 ， 所 以 这 里 的 简写 语法 依然 过 用 。 


输入 与 输出 | 91 


子 里 ，foreach 的 软 认 控制 变量 是 $ 而 已 。 在 这 个 循环 里 ， 我 们 会 在 $_ 中 看 到 各 行 输入 的 


好 像 在 哪里 听 过 。 没 错 ， 它 和 while 循 环 的 行为 完全 一 样 ， 不 是 吗 ? 


两 者 的 不 同 之 处 在 于 它们 背后 的 运作 方式 。 在 while 循 环 里 ，Perl 会 读 取 一 行 输入 ， 把 
它 存 和 人 某 个 变量 并 且 执 行 循环 的 主体 ， 接 下 来 它 会 回头 去 寻找 其 他 的 输入 行 。 但 是 在 
foreach 循 环 里 ， 行 输入 操作 符 会 在 列表 上 下 文中 执行 〈 因 为 foreach 需 要 逐 项 处 理 列表 
内 容 ) 。 为 此 ， 在 循环 能 够 开始 执行 前 ， 它 必须 先 将 输入 全 部 读 进 来 。 假 如 输入 来 自 
400MB 大 小 的 Web 服 务 器 日 志文 件 ， 它 们 的 差异 会 十 分 明显 ! 因此 最 好 的 做 法 通常 是 尽 
量 使 用 while 循 环 的 简写 ， 让 它 每 次 处 理 一 行 。 


来 自 钻石 操作 符 的 输入 


还 有 另外 一 种 读 取 输入 的 方法 ， 就 是 使 用 钻石 [ 注 4] 操作 符 c>。 它 能 让 程序 在 处 理 调用 
参数 ( 稍 后 我 们 会 看 到 ) 时 ， 提 供 类 似 于 标准 Unix 工 具 程 序 的 功能 | 性 5 。 如 果 你 想 用 
Perl 编 写 类 似 cat、sed、awK、sorf、8rep、jpr 等 工具 程序 ， 钻 石 操作 符 将 会 是 你 的 好 帮 
手 。 但 车 你 想 让 它 处 理 更 复杂 的 参数 格式 ， 钻 石 操作 符 可 就 帮 不 上 忙 了 。 


程序 的 调用 参数 (iavocatiomn argxment) 通常 是 命令 行 上 跟 在 程序 名 后 面 的 几 个 “ 单 
词 ” [入 9 。 在 下 面 的 例子 里 ， 命 令 行 参 数 就 是 要 依次 处 理 的 几 个 文件 的 名 字 :; 


$ /my_program fred barney betty 


这 条 命令 的 意思 是 : 执行 my_program 命 令 (位 于 当前 目录 ) ， 然 后 它 应 该 会 处 理 文件 
.jed， 接 着 是 文件 parnrey， 最 后 是 文件 petpy。 


若 不 提供 任何 调用 参数 ， 程 序 会 从 标准 输入 流 采集 数据 。 此 话 不 够 严格 ， 因 为 有 个 例 
外 ， 如果 把 连 字符 〈(-) 当 作 参数 ， 则 表示 要 从 标准 输入 读 取 数 据 [ 注 7] 。 所 以 ， 假 如 


注 4; 钻石 操作 符 是 Larry 的 女儿 Heidi 命 名 的 ， 某 天 当 Randal 拿 着 他 新 写 的 Perl 培 训 材 料 去 
Larry 家 给 他 看 的 时 候 ， 这 个 操作 符 还 没有 一 个 叫 得 出 的 名 字 。Larry 也 想 不 出 来 ，8 岁 的 
Heidi 灵 机 一 动 ， 说 “ 它 像 钻 石 ”， 于 是 有 了 这 个 名 字 ， 谢 谢 Heidil 
注 5: 不 光 是 Unix 系 统 ， 许 多 其 他 系统 也 借鉴 了 这 种 处 理 调用 参数 的 方式 。 
注 6: 当 程 序 开始 运行 时 ， 它 会 有 一 个 有 替 个 或 多 个 参数 的 列表 ， 这 取决 于 运行 它 的 程序 。 通 
常 是 由 shel] 来 启动 这 个 程序 ， 这 时 参数 列表 的 组 成 就 取决 于 你 在 命令 行 上 的 输入 。 稍 后 
我 们 会 看 到 可 以 用 任意 字符 串 来 充当 调用 参数 。 由 于 它们 一 般 出 现在 命令 行 上 ， 所 以 我 
们 称 之 为 “命令 行 参数 ”。 





注 7: 可 能 你 对 Unix 的 一 些 东 西 还 不 式 荡 : 大 多 数 标 准 的 工具 程序 ， 像 caf 和 sed， 它 们 都 把 连 字 
符 (-) 当 作 标 准 输入 流 。 
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调用 参数 是 六 ed-betty， 那 么 程序 应 该 先 处 理 文件 六 ed， 然后 处 理 标 准 输入 流 中 提供 的 数 
据 ， 最 后 才 是 文件 petry。 


让 程序 以 这 种 方式 运行 的 好 处 ， 就 是 你 可 以 在 运行 时 指定 程序 的 输入 源 。 比 方 说 ， 你 不 
需要 重 写 程序 ， 就 可 以 在 管道 (pipeline) 里 使 用 它 〈 稍 后 会 有 更 深入 的 讨论 ) 。Larry 
为 Perl 加 上 这 个 功能 ， 是 想 帮 你 轻松 写 出 用 起 来 类 似 标准 Unix 工 具 程 序 的 程序 ， 并 且 在 
非 Unix 系 统 上 也 能 运行 。 事 实 上 ，Larry 是 为 了 让 他 自己 的 程序 更 符合 标准 Unix 工 具 程 序 
的 习惯 ， 才 设计 出 这 个 功能 的 。 因 为 每 家 厂商 的 工具 程序 在 运行 方式 上 不 尽 相同 ， 所 以 
Larry 自 己 用 Perl 按 照 统一 的 用 法 重新 实现 了 这 些 工 具 程序 并 安装 到 各 台 机 器 上 。 当然 ， 
前 提 是 把 Eeq 也 移植 到 那些 机 器 上 。 


钻石 操作 符 是 行 输入 操作 符 的 特例 。 不 过 它 并 不 是 从 键盘 取得 输入 ， 而 是 从 用 户 指定 的 
位 置 读 取 LE81 
while 《defined($line =“>)) 


chomp($Line); 
pint "It Was $line that I sawlNn ; 


所 以 ， 假 设 这 个 程序 运行 时 的 调用 参数 是 fred、barney 和 betty， 输 出 结果 就 会 是 “It 
was [从 文件 Pred 取 得 的 一 行内 容 ] that I saw!”、“TIt was [从 文件 Pred 取 得 的 另 一 行内 
容 ] that I saw!” 等 ， 直 到 我 们 遇 到 文件 广 ed 的 结尾 为 止 。 接 下 来 ， 它 会 自动 切换 到 文件 
barney， 逐 行 输出 它 的 内 容 ， 然 后 再 换 到 文件 petty。 请 注意 ， 在 切换 到 另 一 个 文件 时 中 
间 并 没有 间断 ， 因 为 使 用 钻石 操作 符 时 就 好 像 这 些 文件 已 经 合并 成 一 个 很 大 的 文件 一 样 
i 注 9 。 钻 石 操作 符 只 有 在 磁 到 所 有 输入 的 结尾 时 才 会 返回 undef (然后 我 们 就 会 跳出 
while 循 环 ) 。 
既然 这 只 是 行 输入 操作 符 的 一 种 特例 ， 因 此 我 们 可 以 使 用 先前 看 到 的 简写 ， 将 输入 读 取 
到 默认 的 $ 里: 
while (<>) { 
chomp; 


print "It was $_ that IsSawl\n 
】} 


这 和 前 面 的 循环 效果 相同 ， 但 可 以 少 打 些 字 。 你 可 能 也 注意 到 ， 我 们 使 用 了 chomp 的 轩 
认 用 法 : 不 加 参数 时 ，chomp 会 直接 作用 在 $_ 上。 节约 按键 ， 从 小 地 方 做 起 ! 


注 8: 输入 可 能 来 自 键盘 ， 也 可 能 来 自 其 他 设备 。 


注 9: 不 管 你 是 否 在 意 ， 有 一 点 需要 说 明 ， 当 前 正在 处 理 的 文件 名 会 被 保存 在 特殊 变量 $ARGYV 
中 。 如 果 当 前 是 从 标准 输入 获取 数据 ， 那 么 当前 文件 名 就 会 是 “-” ( 连 字符 ) 。 
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由 于 钻石 操作 符 通 常会 处 理 所 有 的 输入 ， 所 以 一 旦 看 到 它 出 现在 程序 中 的 多 处 时 ， 通 党 
都 是 错误 的 。 如 果 程 序 里 同时 出 现 两 个 钻石 操作 符 ， 尤 其 是 在 使 用 第 一 个 钻石 操作 符 进 
行 读 取 的 while 循 环 中 接着 使 用 第 二 个 的 话 ， 可 以 肯定 无 法 正常 工作 填 101 。 在 我 们 的 经 
验 里 ， 当 初学 者 在 程序 中 放 入 第 二 个 钻石 操作 符 时 ， 往 往 是 想 读 取 下 一 行 输入 ， 其 实 $_ 
才 是 他 们 想 要 的 东西 。 请 记 住 ， 钻 石 操作 符 是 用 来 读 取 输 入 的 ， 而 输入 的 内 容 可 以 在 $ 中 
找到 (起码 是 在 一 般 的 默认 情况 下 ) 。 


假如 钻石 操作 符 无 法 打开 某 个 文件 并 读 入 内 容 ， 便 会 显示 相关 的 出 错 诊断 信息 ， 就 像 ; 
can't open wimla: No such fjile or directory 


然后 钻石 操作 符 会 自动 跳 到 下 一 个 文件 ， 就 像 cal 或 其 他 标准 工具 程序 的 做 法 一 样 。 


调用 参数 
从 技术 上 来 看 ， 钻 石 操作 符 其 实 不 会 去 检查 命令 行 参数 ， 它 的 参数 其 实 不 过 是 来 自 @ 
ARGV 数 组 。 这 个 数组 是 由 Perl 解 释 器 事先 建立 的 特殊 数组 ， 其 内 容 就 是 由 命令 行 参 数组 


成 的 列表 。 换 名 话 说 ， 它 和 别 的 数组 没有 不 同 〈 除 了 奇怪 的 全 大 写 名 称 之 外 ) ， 只 不 过 
在 程序 开始 运行 时 ，@ARCGV 里 就 已 经 塞 满 了 调用 参数 [二 1 。 


你 可 以 像 使 用 其 他 数组 一 样 来 使 用 ARGV:， 你 可 以 把 元 素 从 它 里 面 shift 出 去 ， 或 用 
foreach 逐 项 加 以 处 理 。 你 也 可 以 检查 是 否 有 参数 是 以 连 字符 〈-) 开头 的 ， 然 后 将 它们 
当成 调用 选项 处 理 (就 像 Per 对待 它 自己 的 -w 选 项 一 样 ) ! 往 ?1 。 


钻石 操作 符 会 查看 数组 @ARGV， 然 后 决定 该 用 哪些 文件 名 ， 如 果 它 找到 的 是 空 列 表 ， 就 会 
改 用 标准 输入 疲 ， 否 则 ， 就 会 使 用 @ARGV 里 的 文件 列表 。 这 表示 程序 开 开始 运行 之 后 ， 只 要 
尚未 使 用 钻石 操作 符 ， 你 就 可 以 对 6@ARGV 动 点 手脚 。 这 样 我 们 就 可 以 处 理 三 个 特定 的 文 
件 ， 不管 用户 在 命令 行 参数 中 指定 了 什么 : 

@ARGV = qw# larTy moe curly #; # 强制 让 钻石 操作 符 只 读 取 这 三 个 文件 


while (<>) 
chomp; 


注 10: ”如果 你 在 使 用 第 二 个 钻石 操作 符 前 重新 初始 化 了 特殊 变量 BARGV， 那 就 是 可 行 的 。 我 们 将 

在 下 一 小 节 学 习 变量 BARGV。 

注 11: ” C 程 序 员 可 能 会 因此 联想 到 argc (Perl 中 没有 这 个 ) 以 及 该 程序 的 名 称 在 哪 〈 它 在 Perl 的 
特殊 变量 $0 里 ， 不 包含 在 BARGV 中 ) 。 另 外 ， 调 用 程序 的 方式 不 同 ， 这 里 的 情况 也 可 能 不 
同 。 有 具体 请 参考 perirum 文 档 。 

注 12: “如 果 你 需要 的 命令 选项 多 于 一 两 个 ， 最 好 以 标准 的 方式 用 相关 的 模块 。 请 参阅 
Getopt::Long 和 Getopt::Std 模 块 的 文档 ， 它 们 都 是 随 Peri 发 行 的 标准 模块 。 
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ptint "It Was $_ that I saw in some stooge-like filelNn”; 


】 


我 们 会 在 第 十 四 章 中 介绍 如 何 转换 输入 内 容 的 编码 时 ， 看 到 有 关 @ARGV 变 量 的 更 多 例 
子 [ 斑 13] 。 


输出 到 标准 输出 


print 操 作 符 会 读 取 后 续 列表 中 的 所 有 元 素 ， 并 把 每 一 项 当然 是 一 个 字符 串 ) 依次 送 
到 标准 输出 。 它 在 每 一 项 之 前 、 之 后 与 之 间 都 不 会 再 加 上 额外 的 字符 [ 注 14] 。 要 是 想 在 
每 个 元 素 之 间 加 上 空白 并 在 结尾 加 上 换行 符 ， 你 得 这 么 做 ; 


$name = “Larry Nal1”; 
print "Hel10 there，$name，did you know that 344 is "，34+4，"?Nn 


当然 ， 直 接 使 用 数组 和 使 用 数组 内 插 在 打印 效果 上 是 不 同 的 : 


pIint @arTay; # 把 数组 的 元 素 打 印 出 来 

print "@array";  # 打印 出 一 个 字符 串 〈 数 组 元 素 内 插 的 结果 ) 
第 一 个 print 语 名 会 一 个 接 一 个 地 打印 出 数组 中 所 有 的 元 素 ， 元 素 之 间 不 会 有 空格 。 而 
第 二 个 则 不 同 ， 它 只 打印 一 个 字符 串 ， 也 就 是 earray 在 双 引 号 中 内 揪 形 成 的 字符 串 ， 也 
就 是 数组 earray 所 有 元 素 〈 以 空格 分 隔 ) 组 成 的 字符 圳 ! 芷 '5 。 所 以 ， 如 果 @array 的 内 
容 是 qw/fred barney betty/ [6 ， 那 么 第 一 个 语句 会 输出 fredbarneybetty， 而 第 二 
个 会 输出 以 空格 隔 开 的 fred barney betty。 


不 过 ， 在 你 打算 总 是 使 用 第 二 种 写法 之 前 ， 请 先 想象 6array 包 含 了 一 串 未 截 尾 的 输入 
行 。 也 就 是 说 ， 请 想象 里 面 的 每 个 字符 串 都 是 以 换行 符 结 尾 。 这 时 ， 第 一 个 print 语 句 
会 分 三 行 输出 fred、barney 和 betty。 但 是 第 二 个 print 语 句 则 会 输出 这 样 的 结果 : 

fred 


barney 
betty 


注 13: ”有关 字 符 编码 的 内 容 ， 如 果 你 还 不 太 悉 ， 请 先 读 一 读 附 了 录 C。 

注 14: ”默认 情况 下 它 不 会 额外 添加 什么 东西 ， 但 这 种 默认 情况 〈 和 Perl 里 很 多 其 他 默认 情况 一 
样 ) 是 可 以 被 修改 的 。 对 默认 情况 的 修改 会 增加 维护 人 员 的 困难 ， 所 以 除非 是 在 短小 精 
悍 、 需 要 快速 完成 功能 的 程序 中 ， 或 者 是 在 某 一 小 段 代 码 里 ， 否 则 一 般 请 不 要 修改 这 些 
默认 情况 。 需 要 详细 了 解 ， 请 参看 perlyar 文 档 。 

注 135: ”空格 也 是 默认 情况 而 已 ， 请 再 次 参看 periyar 文 档 。 


注 16: ”这 是 Perl 的 一 种 写法 ， 它 代表 包含 三 个 元 素 的 列表 ， 你 知道 的 ， 对 吧 ? 
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你 看 得 出 其 中 的 空格 是 从 哪里 来 的 吗 ? 因为 Perl 把 数组 内 插 到 字符 串 中 时 ， 会 在 每 个 元 
素 之 间 加 上 空格 。 因 此 我 们 得 到 的 字符 串 将 会 是 数组 的 第 一 个 元 素 (fred 与 换行 符 ) ， 
接着 是 一 个 空格 , 之 后 是 数组 的 下 一 个 元 素 (barney 与 换行 符 ) ， 接 着 是 一 个 空格 ， 之 
后 是 数组 的 最 后 一 个 元 素 (betty 与 换行 符 ) 。 结 果 就 是 ， 除 了 第 一 行 ， 其 他 几 行 看 起 
来 好 像 经 过 缩 排 一 样 。 


每 隔 一 两 周 ， 在 新 闻 组 或 论坛 中 就 会 出 现 类 似 这 样 的 主题 的 新 帖子 “Perl 会 在 第 一 行 
之 后 缩 进 剩 下 的 行 ”。 


我 们 甚至 不 必 看 正文 ， 马 上 就 知道 他 的 程序 用 了 双 引 号 里 的 数组 ， 而 数组 里 全 是 没有 截 
尾 过 的 字符 串 。 
我 们 会 问 “ 你 是 不 是 在 双 引 号 里 放 了 数组 ， 而 数组 里 面 是 没 chomp 过 的 字符 串 ? ”而 答 
案 常常 都 是 肯定 的 。 
一 般 来 说 ， 如 果 数 组 里 的 字符 串 包含 换行 符 ， 那 么 只 要 直接 将 它们 输出 来 就 好 了 : 
print @array; 
要 是 它们 不 包含 换行 符 ， 你 通常 会 想 在 结尾 补 上 一 个 : 
print “@arTay\n 
为 了 帮 你 分 清楚 哪个 是 哪个 ， 通 常 在 使 用 引号 的 场合 ， 字 符 串 后 面 都 最 好 加 上 \n。 


一 般 情 况 下 ， 程 序 的 输出 结果 会 先 被 送 到 缓冲 区 。 也 就 是 说 ， 不 会 每 当 有 一 点 点 输出 就 
直接 送出 去 ， 而 是 先 积 摸 起 来 ， 直 到 数量 够 多 时 才 造 访 外 部 设备 。 


为 什么 要 这 样 做 呢 ? 举例 来 说 ， 当 输出 结果 要 存 到 磁盘 时 ， 只 为 了 添加 一 两 个 字符 到 文 
件 结尾 就 去 访问 磁盘 ， (相对 来 讲 ) 这 样 既 慢 又 没 效 率 。 因 此 ， 输 出 的 结果 通常 会 先 被 
送 到 缓冲 区 ， 等 到 缓冲 区 满 了 或 是 在 输出 结束 时 《例如 程序 运行 完毕 ) ， 才 会 将 它 刷新 
Wius 站 到 磁盘 〈 也 就 是 实际 写 到 磁盘 ， 或 者 写 到 其 他 地 方 ) 。 通 常 这 就 是 你 想 要 的 效果 。 
但 假如 你 〈 或 程序 ) 立刻 就 要 输出 ， 你 大 概 愿 意 牺 牲 一 些 效率 ， 在 每 次 Print 时 立刻 刷 
新 缓冲 区 。 在 这 种 情况 下 ， 请 参阅 Perl 的 文 档 ， 进 一 步 了 解 如 何 控制 缓冲 。 


由 于 pzrint 处 理 的 是 待 打 印 的 字符 串 列 表 ， 因 此 它 的 参数 会 在 列表 上 下 文中 被 执行 。 而 
钻石 操作 符 〈 行 输入 操作 符 的 特殊 形式 ) 在 列表 上 下 文中 会 返回 由 许多 输入 行 组 成 的 列 
表 ， 所 以 它们 彼此 可 以 配合 工作 : 

pzint <>; # 相当 于 Unix 下 的 cat 命 令 

print sort <>; # 相当 于 Unjix 于 的 sort 命 令 





老实 说 ，cat 和 sort 这 两 个 标准 的 Unix 命 令 还 有 许多 额外 的 功能 是 上 面 两 行程 序 代码 做 不 
到 的 。 但 它们 绝对 是 物 超 所 值 1 现在 你 可 以 用 Perl 重 写 所 有 的 Unix 工 具 程 序 ， 然 后 轻松 
地 将 它们 移植 到 任何 有 Perl 的 机 器 上 ， 不 管 那 台 机 器 上 的 操作 系统 是 否 为 Unix。 在 各 种 
不 同 的 机 器 上 ， 你 都 可 以 保证 程序 会 用 相同 的 方式 运行 考 7"] 。 

有 个 比较 不 明显 的 问题 ， 那 就 是 print 后 面 可 有 可 无 的 括号 ， 这 可 能 会 让 人 糊涂 。 别 忘 
了 有 这 条 规则 : 除非 这 样 做 会 改变 表达 式 的 意义 ， 否 则 Perl 里 的 括号 可 以 省 略 。 所 以 有 
两 种 方法 可 以 输出 一 样 的 东西 ; 


prIrint("Hello，worldlNn ); 
print “Hello，worlLdINn”; 


到 目前 为 止 还 不 错 。 不 过 Per 还 有 另 一 条 规则 : 假如 print 的 调用 看 起 来 像 函 数 调用 ， 它 
就 是 一 个 函数 调用 。 这 个 规则 很 简单 ， 但 是 “看 起 来 像 函 数 调用 ”是 什么 意思 呢 ? 


在 函数 调用 里 ， 函 数 名 后 面 必 须 紧 接着 [ 注 181 一 对 括号 ， 里 面包 含 了 函数 的 参数 ， 就 像 
这 样 ; 
print (2+3); 


这 看 起 来 像 函 数 调 用 ， 所 以 它 的 确 是 个 国 数 调 用 。 它 会 输出 5， 但 它 和 其 他 函数 一 样 返 
回 某 个 值 。print 的 返回 值 不 是 真 就 是 假 ， 代 表 print 是 否 成 功 执行 。 除 非 发 生 了 LO 错 
误 ， 否 则 它 一 定 会 成 功 。 所 以 在 下 面 的 语句 里 ，$result 通 常会 是 1: 


$result = print( hello WorldlNn ); 


可 是 ， 如 果 你 用 别 的 方式 来 处 理 这 个 结果 ， 会 发 生 什么 事 昵 ? 假设 你 决定 将 返回 值 乘 以 
4; 


print (2+3)*4; # 糟糕 ! 


当 Perl 看 到 这 行程 序 代 码 ， 它 会 遵照 你 的 要 求 输出 5。 接 着 ，Perl 会 从 prTint 取 得 返回 值 





注 17: 实际 上 Perl Power Tools (简称 PPT) 项 目的 目标 就 是 用 Perl 来 重 写 所 有 经 典 UJnix 工 
具 程 序 〈( 鞭 至 包括 游戏 ! ) ， 但 是 在 重 写 shell 的 时 候 陷 入 了 难题 。PPT 项 目 一 度 非 常 有 
用 ， 因 为 它 使 得 所 有 标准 的 工具 程序 能 运行 在 很 多 非 Unix 机 路上 。 
注 18:， 这 里 我 们 说 “ 紧 接 着 ”是 因为 在 调用 函数 的 时 候 ，Perl 不 克 许 函数 名 和 括号 之 间 有 换行 
| 符 。 如 果 有 换行 符 ，Perl 会 把 括号 当成 创建 列表 的 操作 符 ， 而 不 是 函数 调用 的 一 部 分 。 
我 们 只 是 想 让 你 知道 这 些 琐碎 的 细节 ， 如 果 你 实在 好 奇 ， 可 以 在 说 明文 档 里 面 寻找 更 详 
细 的 内 容 。 
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1， 再 将 它 乘 以 4。 然 后 它 会 丢掉 这 项 乘积 ， 因 为 你 没 告诉 它 接 下 来 要 做 什么 。 这 时 ， 你 
旁边 就 会 有 人 看 到 ， 然 后 说 :，“ 嘿 ，Perl 连 数学 都 不 会 ! 应 该 输出 20， 而 不 是 51 ” 


问题 在 于 Perl 可 以 省 略 括号 ， 而 大 多 数 人 又 容易 忘记 括号 的 归属 。 没 有 括号 的 时 候 
print 是 列表 操作 符 ， 会 把 其 后 的 列表 里 的 所 有 东西 全 都 输出 来 。 一 般 来 说 ， 这 就 是 我 们 
想 要 的 。 但 是 假如 print 后 面 紧 跟着 左 括号 ， 它 就 是 一 个 函数 调用 ， 只 会 将 括号 内 的 东西 
输出 来 。 因 为 该 行程 序 代 码 有 括号 ， 所 以 对 Per 来 说 ， 就 和 下 面 的 写法 一 样 : 


( print(2+3) ) * 4; # 粳 糕 ! 


好 在 只 要 你 启用 了 警告 功能 ，Perl 几 乎 总 能 帮 你 找 出 这 类 问题 。 所 以 请 使 用 -w 或 加 Fuse 
warnings， 至 少 在 你 开发 程序 与 调试 时 启用 它 。 


实际 上 ， 这 条 规则 一 “假如 它 看 起 来 像 函 数 调用 ， 它 就 是 一 个 函数 调用 ” ， 不 仅 对 
print 适 用 ， 对 Perl 所 有 的 列表 函数 也 同样 适用 | 得) ， 只 不 过 print 可 能 最 容易 让 人 注 
意 到 这 条 规则 。 如 果 print (或 其 他 函数 名 ) 后 面 接着 一 个 左 括号 ， 请 务必 确定 在 函数 
的 所 有 参数 之 后 也 有 相应 的 右 括号 。 本 


用 printf 格 式 化 输出 


处 理 输出 结果 时 ， 你 也 许 希 望 使 用 控制 能 力 比 pzint 更 强 的 操作 符 。 事 实 上 ， 你 可 能 已 
经 习惯 使 用 C 的 printf 函 数 来 产生 格式 化 过 的 输出 结果 。 别 担心 ，Perl 里 同名 的 函数 也 能 
提供 类 似 的 功能 。 


printf 操 作 符 的 参数 包括 “格式 字符 串 ” 及 “要 输出 的 数据 列表 ”。 格 式 “字符 串 
好 像 用 来 填空 的 模板 ， 代 表 你 想 要 的 输出 格式 : 

printf “He110，%s;j YOUT password expjires in %d daysiNn ， 

$user，$days_to_djiej; 

格式 字符 串 里 可 以 有 多 个 所 谓 的 转换 (conyersion) 。 每 种 转换 都 会 以 百分比 符号 〈%) 
开头 ， 然 后 以 某 个 字母 结尾 (我们 稍 后 就 会 看 到 ， 在 这 两 个 符号 之 间 可 以 存在 额外 的 有 
效 字 符 ) 。 而 后 面 的 列表 里 元 素 的 个 数 应 该 和 转换 的 数目 一 样 多 ， 如 果 数 目 不 对 ， 就 无 
法 正确 运行 。 上 面 的 例子 里 有 两 个 元 素 和 两 个 转换 格式 ， 所 以 输出 的 结果 看 起 来 会 像 这 
样 ; 


注 19: “不 需要 参数 或 者 只 需要 一 个 参数 的 函数 不 包括 在 内 。 

注 20: ”我们 这 里 说 的 “ 烙 式 ”只 是 一 般 意 义 上 的 。Perl 本 身 还 有 个 报表 烙 式 化 (format) 功能 ， 
但 我 们 现在 不 会 介绍 它 的 用 法 ， 你 可 以 到 附录 B 参 考 一 下 。 我 们 希望 由 简 入 难 ， 以 免 两 者 
混 清 。 








Hello，merlyn; your password expires in 3 days! 


pzrintf 可 用 的 转换 格式 很 多 ， 所 以 我 们 在 这 里 只 会 说 明 最 常用 的 部 分 。 当 然 ， 你 可 以 在 
Perlfnc 文 档 里 找到 详细 的 说 明 。 


要 输出 恰当 的 数字 形式 ， 可 以 使 用 %g ! 注 2 ， 它 会 按 需要 自动 选择 浮 点 数 、 整 数 甚 至 是 
肯 数 形式 
printf “%8g %g %g\n ，5/2，51/17，51 *# 17j # 2.5 3 1.0683e+29 
‰d 格 式 则 代表 十 进 制 [221 整数 ， 它 会 舍 去 小 数 点 之 后 的 数字 : 
printf "in %d days!\n"，17.85; # 输出 : in 17 daysl 
请 注意 ， 它 会 无 条 件 截断 ， 而 非 四 舍 五 人 。 等 一 下 我 们 就 会 学 到 如 何 四 舍 五 人 。 


在 Perl 里 ，pzrintf 最 常用 在 字段 式 的 数据 输出 上 ， 因 为 大 多 数 的 转换 格式 都 可 以 让 你 指 
定 宽 度 。 如 果 数 据 太 长 ， 字 段 会 按 需 要 自动 扩展 : 


printf "%6d\n"，42; # 输出 结果 看 起 来 像 “ ”42 (`” 符号 代表 空格 ) 
printf "%2d\n"，2e8e3 + 1.95; # 2001 


%s 代 表 字 符 串 格式 ， 所 以 它 的 功能 其 实 就 是 字符 串 内 插 ， 只 是 还 能 设 定 字段 宽度 : 
printf “"%10s\n"，"wilma"; # 看 起 来 像 "人 人 WILLma 
如 果 宽 度 字 段 是 负数 ， 则 会 向 左 对 齐 〈 适 用 于 上 述 各 种 转换 ) : 


printf "%-15sS\n"， "flintstone"; # 看 起 来 像 fLlintstone 
转换 格式 〈 浮 点 数 ) 会 按 需要 四 舍 五 人 ， 甚 至 还 可 以 指定 小 点 数 之 后 的 输出 位 数 ， 
printf "%12f\n"，6 * 7 + 2/3; # 看 起 来 像 ” 42.666667 


pzintf "%12.3f\n" ，6*# 7 + 2/3j # 看 起 来 像 妆 人 全 42.667 
printf "%12.0f\n"，6*# 7 + 2/3; # 看 起 来 像 人 人 人 人 43 


要 输出 真正 的 百 分 号 ， 请 使 用 焙 ， 它 的 特殊 之 处 在 于 不 会 输出 (参数 ) 列表 中 的 任何 元 
素 [ 往 23] ， ， 


注 21: 你 可 以 把 “g” 当 成 “General” 数 字 转 换 ， 或 “Good conversion for this number”， 


或 “Guess what I want the output to look like”。 





注 22: ”如 果 你 需要 ， 还 有 %x 代 表 十 六 进 制 ，%o 代 表 八 进 制 。 你 可 以 把 %d 当 作 “decimal”， 以 帮 
助 记 忆 。 


注 23: ”也许 你 认为 在 百 分 号 前 加 个 反 儿 线 就 行 了 。 不 错 的 尝试， 但 是 不 对 。 这 是 因为 这 些 格式 
符号 是 表达 式 ， 而 表达 式 "\%" 束 代表 字符 事 '%' 。 所 以 就 算 我 们 加 了 反 告 线 ，pTintf 还 是 
不 知道 该 怎么 做 。 一 般 C 程序 员 比 较 习 惯 这 么 做 。 
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pIintf “Monthly interest Tate: %,2f%%Nm” ， 
5.25/12; # 运算 后 的 值 看 起 来 像 “0.44%" 


数组 和 printf 

一 般 来 说 ， 你 不 会 将 数组 当成 printf 的 参数 。 这 是 因为 数组 可 以 包含 任意 数目 的 元 素 ， 
而 格式 字符 串 却 只 会 用 到 国定 数目 的 元 素 : 假如 格式 字符 串 里 有 三 个 转换 格式 ， 那 就 必 
须 刚 好 有 三 个 元 素 可 供 使 用 。 


不 过 ， 没 有 人 规定 你 不 能 在 程序 运行 时 动态 产生 格式 字符 中 ， 它们 可 以 是 任意 的 表达 
式 。 人 些 技巧 ， 把 格式 字符 串 存 进 变量 可 能 会 带 来 方便 (尤其 有 
助 于 调试 ) : 

my @jitems = qnw( wilma dino pebbles ); 

my $fornmat = "The items arel\n”，("%10s\n"”X @items); 


持 打印 “the format is >>$format<<\n"; # 用 于 调试 
printf $format，@items; 


这 段 程 序 用 了 x 操 作 符 〈 参 见 第 二 章 ) 复制 指定 的 字符 串 ， 复 制 的 次 数 与 etitems (在 标 
量 上 下 文中 使 用 ) 的 元 素 个 数 相同 。 在 上 面 的 例子 里 ， 因 为 列表 有 三 个 元 素 ， 所 以 复 
人 
n%10s\n” 一 样 。 程 序 会 先 输出 标题 ， 接 着 将 每 个 元 素 显 示 成 独立 的 一 行 ， 每 行 都 靠 右 
对 齐 ， 字 段 一 律 10 个 字符 宽 。 很 酷 吧 ? 这 还 不 算 ， 因 为 最 酷 的 是 我 们 可 以 把 它们 全 都 组 
合 在 一 起 ， 


printf “The jitems are:\n".("%10s\n”X @items)，@itemsj 


请 注意 ， 我 们 在 标量 上 下 文中 用 了 一 次 eitems 以 取得 它 的 长 度 ， 然 后 又 在 列表 上 下 文中 
用 了 一 次 以 取得 它 的 内 容 。 上 下 文 的 重要 性 可 见 一 玫 。 


文件 句柄 


文件 句柄 (filehandle) 就 是 程序 里 代表 Per]l 进 程 (process) 与 外 界 之 间 的 MO 联系 的 名 
称 。 也 就 是 说 ， 它 是 “这 种 联系 ”的 名 称 ， 不 是 文件 的 名 称 。 


在 Perl 5.6 之 前 ， 所 有 的 文件 句柄 名 称 都 是 裸 字 (bareword) ， 而 从 Per15.6 起 ， 我 们 可 以 
把 文件 句柄 的 引用 放 到 常规 的 标量 变量 中 。 我 们 会 先 展 示 裸 字 写 法 ， 因 为 许多 特殊 文件 
句柄 向 来 习 候 使 用 裸 字 ， 稍 后 我 们 再 介绍 存放 在 标量 变量 中 的 文件 句柄 的 用 法 。 


给 文件 句柄 起 名 就 好 比 给 Perl 的 其 他 标识 符 起 名 一 样 ， 必 须 以 字母 、 数 字 及 下 划 线 组 
成 ， 但 不 能 以 数字 开头 。 由 于 裸 字 没 有 任何 前 置 字符 ， 所 以 当 我 们 阅读 它 的 时 候 ， 有 
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可 能 会 与 现在 或 将 来 的 保留 字 相 混淆 ， 或 是 与 第 十 章 中 将 要 介绍 的 标签 (label) 相 混 
消 。 所 以 再 一 次 ，Larry 建 议 你 使 用 全 大 写字 母 来 命名 文件 句柄 。 这 样 不 仅 看 起 来 更 加 
明显 ， 也 能 避免 与 将 要 引入 的 (小 写 ) 保留 字 冲 突 ， 以 免 程序 出 错 。 


但 有 6 个 特殊 文件 句柄 名 是 Perl 保 留 的 ， 它们 是 ， STDIN、STDOUT、STDERR、DATA、ARGV 
以 及 ARGVOUT [ 注 241 。 虽 然 你 可 以 选择 任何 喜欢 的 文件 句柄 名 ， 但 不 应 使 用 保留 字 ， 除 非 
确实 需要 以 特殊 方式 使 用 上 述 6 个 句柄 ! 往 25] 。 


上 述 的 文件 句柄 也 许 你 早 就 认得 了 。 当 程序 启动 时 ， 文 件 句 柄 STDIN 就 是 Perl 进 程 和 它 的 
输入 源 之 间 的 联系 ， 也 就 是 俗称 的 标准 输入 流 (standard input stream)。 它 通常 是 用 户 的 
键盘 输入 ， 除 非 用 户 要 求 别 的 输入 来 源 ， 像 从 文件 读 取 输 入 或 是 经 由 管道 (pipe) 读 取 
另 一 个 程序 的 输出 [ 往 26] 。 当然 还 有 标准 输出 流 (stamrdard outpxw streaz)STDOUT。 软 认 情 
况 下 它 会 输出 到 用 户 的 屏幕 ， 但 用 户 也 可 以 把 它 送 到 文件 或 另 一 个 程序 ， 我 们 稍 后 会 看 
到 这 种 范例 。 这 些 标 准 的 流 乃 是 源 自 于 Unix 的 “标准 IJO” 函 数 库 ， 不 过 大 部 分 现代 的 操 
作 系 统 也 都 支持 汪 ?) 。 一 般 来 说 ， 程 序 应 该 不 闻 不 顾 地 从 STDIN 读 取 数 据 ， 继 而 不 闻 不 
顾 地 将 数据 写 到 STDOUT， 相 信用 户 (或 者 广义 地 说 ， 是 启动 你 的 程序 的 那个 程序 ) 已 经 
将 它们 都 设 定 好 了 。 比 如 说 ， 用 户 可 以 在 shell 里 运行 以 下 命令 : 


”$ ./your_pTogxram 《dino >wilma 


这 条 命令 告诉 shell， 程 序 的 输入 应 该 来 自 文件 dino， 输 出 应 该 送 到 文件 wiima。 而 这 个 程 
序 本 身 只 管 从 STDIN 读 入 数据 ， 再 按照 我 们 的 要 求 处 理 这 些 数据 ， 之 后 只 要 把 输出 送 到 
STDOUT 妈 可 ， 别 的 什么 都 不 用 答 ， 交 给 shell 来 处 理 。 

这 样 不 需要 额外 的 工作 ， 这 个 程序 就 可 以 正确 地 在 管道 (pipeline) 中 运行 。 这 又 是 另 一 
个 来 自 Unix 的 概念 ， 它 可 以 让 我 们 将 命令 写成 串联 的 形式 ， 


$ cat fred bazney | sort | ./your_program | grep something | 1pr 





注 24: 也 许 有 些 人 讨厌 用 大 写字 母 ， 哪 怕 一 会 儿 ， 所 以 他 们 可 能 喜欢 用 小 写字 母 来 写 这 些 名 
字 ， 比 如 stdin。Perj 也 许 能 让 你 这 么 做 ， 但 是 不 保证 你 总 这 么 做 是 不 会 出 错 的 。 至 于 何 
时 可 以 ， 何 时 不 行 ， 已 经 超出 了 本 书 范围 。 但 重要 的 是 ， 如 果 你 老 用 小 写 ， 说 不 定 什么 
时 候 就 出 错 了 ， 所 以 这 些 文件 向 柄 名 还 是 别 用 小 写 吧 。 | 

注 25: ”在 某 些 情 况 下 ， 你 可 以 重用 这 些 名 称 。 但 是 维护 你 的 程序 的 人 可 能 会 错误 地 认为 你 在 使 
用 这 些 内 置 的 保留 文件 身 林 名 ， 他 会 很 容易 混淆 的 。 

注 26: “我们 这 里 所 说 的 那 三 个 默认 LI/O 流 是 针对 Unix shel1， 而 不 是 指 启 动 某 个 程序 的 | 
shell。 我 们 会 在 第 十 四 章 中 了 解 用 Perl 启 动 其 他 程序 的 时 候 会 发 生 什么 。 

注 27: ”如 果 你 对 非 Unhix 系 统 的 标准 输入 和 输出 不 皂 悉 ， 请 参阅 periport 文 档 或 者 你 的 系统 说 明文 “ 
档 中 讲解 Unix shell (或 类 似 的 程序 ， 它 们 能 根据 你 键入 的 命令 调用 其 他 程序 ) 的 章节 。 
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假如 你 不 熟悉 这 些 Unix 命 令 ， 那 也 没有 关系 。 上 面 这 条 命令 的 意思 是 由 ca 命令 将 文件 
Jed 的 每 一 行 输出 ， 再 加 上 文件 parney 里 的 每 一 行 。 之 后 ， 将 以 上 输出 作为 sort 命 令 的 输 
入 ， 对 所 有 的 行进 行 排序 ， 继 而 把 排序 结果 交 给 your_program 处 理 。yoxvr_program 完 成 相 
应 操作 后 ， 再 将 输出 数据 送 到 8rep， 由 它 过 滤 掉 数据 中 的 某 些 行 ， 并 将 剩 下 的 数据 输出 到 
jpr 这 个 命令 ， 让 它 负 责 把 最 终结 果 传 送 给 打印 机 打印 出 来 。 一 气 呵 成 ， 是 不 是 很 酷 ? 


在 Unix 以 及 许多 其 他 现代 的 操作 系统 里 ， 上 述 的 管道 用 法 相当 常见 。 这 样 一 来 ， 你 只 要 
用 好 几 个 简单 、 标 准 的 组 件 ， 就 能 构造 出 功能 强大 且 复杂 的 命令 。 每 个 组 件 都 能 把 一 件 
事情 做 得 很 好 ， 至 于 如 何 巧 妙 地 组 合 起 来 就 是 你 的 任务 了 。 


除了 标准 输入 和 标准 输出 ， 还 有 另 一 个 标准 I/O 流 。 如 果 (在 上 一 个 例子 中 ) yoxr-_ 
prograzn 发 出 任何 警告 或 是 其 他 诊断 信息 ， 这 些 信息 就 不 应 该 继续 在 管道 中 往 下 传递。 
我 们 已 经 用 grep 命 令 来 往 除 特定 字符 串 以 外 的 任何 数据 ， 因 此 它 很 可 能 会 丢弃 警告 信 
息 。 而 且 即 使 它 留 下 了 警告 信息 ， 我 们 可 能 也 不 想 让 它 传 递 到 管道 中 下 游 的 其 他 程序 。 
这 就 是 为 什么 我 们 还 有 一 个 标准 错误 流 (standard error streaz): STDERR。 即 使 输出 会 被 
重 定向 到 下 一 个 程序 或 文件 ， 错 误 信息 仍 能 流向 用 户 需要 之 处 。 错 误 信 息 在 默认 情况 下 
通常 是 输出 到 用 户 的 屏幕 [ 往 ?81 ， 但 用 户 还 是 可 以 用 下 面 这 样 的 shell 命 令 将 错误 信息 转 
向 某 个 文件 ， 


$ netstat | ./your_program 2>/tmpVmy_erIors 


打开 文件 句柄 


到 目前 为 止 ， 你 已 经 看 到 过 三 种 Perl 提 供 的 软 认 文件 句柄 一 一 STDIN、STD0UT 以 及 
STDERR 一 一 它们 都 是 由 产生 Perl 进 程 的 父 进程 〈 可 能 是 shell) 自动 打开 的 文件 或 设备 。 
当 你 需要 其 他 文件 句柄 时 ， 请 使 用 open 操 作 符 告诉 Perl， 要 求 操作 系统 为 你 的 程序 和 外 
界 架 起 一 道 桥梁 。 来 看 儿 个 具体 例子 : 

open CONFIG，'dino'; 

open CONFIG，““《dino " ; 

open BEDROCK， ">fred  ; 

open L060， ">>1ogfile'; 
第 一 行 会 打开 名 为 CONFIG 的 文件 句柄 ， 让 它 指向 文件 dinro。 换 句 话说 ， 它 会 打开 〈 已 存 
在 的 ) 文件 dino， 文 件 中 的 任何 内 容 都 能 从 文件 句柄 CONFIG 被 读 到 我 们 的 程序 中 来 。 这 


注 28: “另外 ,错误 信息 在 一 般 情 况 下 是 不 会 被 缓冲 的 。 标 准 错误 流 和 标准 输出 流 会 指向 同一 个 
地 方 〈 比 如 显示 器 ) ， 而 错误 信息 可 能 在 正常 的 输出 之 前 。 举 例 来 说 ， 如 果 你 的 程序 打 
印 一 行 常规 的 文本 ， 然 后 试图 除 以 零 ， 这 个 时 候 与 除 以 零 相 关 的 错误 信息 就 会 比 常 规 文 
本 先 输出 到 屏幕 。 
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和 利用 shell 的 重 定向 〈 例 如 <dino 这 样 的 写法 ) 将 文件 内 容 经 STDIN 读 入 程序 的 做 法 相 
似 。 事 实 上 ， 第 二 行 正 好 用 到 了 这 样 的 技巧 ， 它 和 第 一 行 所 做 的 事 完 全 相同 ， 只 不 过 用 
了 小 于 号 来 声明 “此 文件 只 是 用 来 读 取 的 ， 而 非 写 人 ”。 打 开 文 件 句 柄 的 默认 模式 就 是 
读 取 数据 “2 。 


尽管 你 无 须 使 用 小 于 号 来 打开 一 个 文件 表示 读 取 输入 ， 但 我 们 还 是 提 到 了 它 ， 因 为 第 
三 个 例子 有 个 与 之 相对 的 大 于 号 ， 它 可 以 用 来 创建 一 个 新 的 文件 : 它 会 打开 文件 句柄 
BEDROCK 并 输出 到 新 文件 redg。 大 于 号 的 用 途 跟 shell 的 重 定向 一 样 ， 它 会 将 输出 送 到 一 个 
名 为 Pred 的 新 文件 。 如 果 已 经 存在 一 个 名 为 Pred 的 文件 ， 那 么 就 清除 原 有 的 内 容 并 以 新 内 
容 取代 之 。 


第 四 个 例子 展示 了 如 何 使 用 两 个 大 于 号 指明 以 追加 的 方式 来 打开 文件 〈 这 仍然 和 shell 
的 重 定向 方式 相同 ) 。 换 句 话说， 如 果 文 件 原本 就 在 在， 那么 新 的 数据 将 会 添加 在 原 
有 文件 内 容 的 后 面 ， 如 果 它 不 存在 ， 就 会 创建 一 个 新 文件 ， 和 只 有 一 个 大 于 符号 的 情 
形 相同 。 此 特性 对 于 日 志文 件 (logfile) 来 说 非常 方便 ， 你 的 程序 可 以 在 每 次 运行 时 只 

加 几 行 数据 到 日 志文 件 里 。 这 就 是 为 什么 第 四 个 例子 的 文件 句柄 称 为 L06， 而 文件 名 是 
Logjiie。 


你 可 以 使 用 任意 一 个 标量 表达 式 来 代 奉 文件 名 说 明 符 。 不 过 ， 你 通常 会 想 要 明确 指定 输 
入 或 输出 的 方向 ; 

my $selected_output = “my_output ; 

open L06， "> $selected_output "; 
注意 大 于 号 后 的 空格 。Perl1 会 忽略 它 ! 汪 ?") ， 但 这 个 空格 能 防止 意外 发 生 。 如 果 
4selected_output 的 值 是 vypasswd 而 之 前 又 没有 空格 的 话 ， 就 会 变 成 以 赫 换 方式 写 信 ， 
面 非 以 追加 方式 写 入 文件。 


在 相对 新 版 的 Perl (5.6 版 之 后 ) 里 ，open 还 有 一 种 三 个 参数 形式 的 写法 : 


open CONFIG，"“ ， "dino ; 
open BEDROCK， "> " ，$file_namey; 


注 29: “选择 读 取 操作 作为 默认 行为 是 出 于 安全 的 考虑 。 随 后 我 们 会 在 第 十 四 齐 详 细 介 绍 文件 名 
中 可 能 用 到 的 其 他 几 个 魔法 字符 。 如 果 $name 里 是 由 用 户 选择 的 文件 名 ， 那 么 直接 使 用 变 
量 $name 打 开 文 件 ， 就 有 可 能 把 文件 名 中 出 现 的 魔法 字符 当 作 特定 功能 ， 执 行 意料 之 外 的 
操作 。 所 以 我 们 建议 你 ， 不 管 什么 时 候 ， 人 我 们 稍 
后 就 会 具体 介绍 这 种 形式 的 写法 。 


注 30; 是 的 ， 这 意味 着 如 果 你 的 文件 名 以 空格 开头 ，Perl 同 料 会 忽略 掉 这 些 空格 。 如 果 你 担心 这 
方面 的 问题 ， 请 参阅 perlfupnc 和 Periopentaut 文 档 。 
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open L0G6，' >》 ，8lLogfile_name(); 
其 优点 在 于 语法 上 可 以 很 容易 区 分 模式 (第 二 个 参数 ) 与 文件 名 本 身 (第 三 个 参数 ) ， 
这 种 写法 在 安全 方面 有 些 好 处 。 


其 实 除 此 之 外 ， 三 个 参数 形式 的 写法 还 有 一 个 好 处 ， 那 就 是 有 机 会 指定 数据 的 编码 方 
式 。 如 果 你 预先 知道 要 读 取 的 文件 是 UTF-8 编 码 的 ， 则 可 以 在 文件 操作 模式 后 面 加 上 置 
号 ， 然 后 写 上 编码 名 称 : 


open CONFIG，'“:encoding(UTF-8)' ，'dino'; 
反 过 来 ， 如 果 要 以 特定 编码 写 数据 到 某 个 文件 ， 也 可 以 这 么 用 ， 


open BEDROCK， '>:encoding(UTF-8)  ，$file_name; 
open L0G， ">>:encoding(UTF-8)' ，&1ogfile_name(); 


对 此 我 们 还 有 一 个 简便 写法 ， 不 用 每 次 键 和 encoding(UTF-8)， 只 要 写 上 :utf8 就 可 以 
了 。 但 两 者 之 间 并 不 完全 等 同 ， 简 写 方式 不 会 考虑 输入 或 输出 的 数据 是 否 真 的 就 是 合 
法 的 UTF-8 字 符 串 。 如 果 用 encoding(UTF-8) 的 话 ， 它 是 会 确认 编码 是 否 正确 这 一 点 
的 。:utf8 则 不 管 拿 来 的 是 什么 ， 直 接 当 作 UTF-8 编 码 字 符 串 来 处 理 ， 所 以 有 时 候 会 出 现 
一 些 问题 。 即 便 如 此 ， 还 是 有 很 多 人 喜欢 这 么 用 ， 


open BEDROCK， ">:utf8g'，$file_name; # 可 能 会 有 问题 


使 用 encoding() 的 形式 ， 还 能 指定 其 他 类 型 的 编码 。 我 们 可 以 通过 下 面 这 条 单行 命令 打 
印 出 所 有 per! 能 理解 和 处 理 的 字符 编码 清单 ; 


% perl -MEncode -le “print for Encode->encodings( :al1 7 )” 


这 个 列表 中 出 现 的 名 字 应 该 都 可 以 拿 来 用 在 读 取 和 写 人 文件 时 指定 编码 。 但 有 些 编码 方 
式 可 能 在 其 他 机 器 上 无 法 使 用 ， 关 键 还 是 要 看 相应 的 编码 系统 是 否 安装 在 系统 中 。 


如 果 想 要 little-endian 版 本 的 UTF-16 字 符 串 ， 可 以 这 样 写 : 
open BEDROCK， ">:encoding(UTF-16LE)'，$file_name; 
或 者 是 Latin-1 字 符 集 ; 
open BEDROCK，'>:encodiog(iso-8859-1) '，$file_namej 
除了 转换 字符 编码 之 外 ， 数 据 输入 或 输出 过 程 当中 还 有 其 他 层 (Layer) 硅 31 可 以 控制 


注 31:， 层 的 概念 和 编码 转换 咯 有 不 同 ， 它 实际 上 并 不 做 什么 事情 。 我 们 可 以 选择 不 同 的 层 答 加 
起 来 (就 是 因为 能 登 加 才 叫 做 层 ) ， 产 生 不 同 的 效果 。 
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数据 的 转换 操作 。 比 如 说 ， 有 时 候 你 拿 到 的 文件 采用 DOS 风 格 的 换行 符 ， 也 就 是 文件 中 
每 行 都 以 同 车 换行 《carriage-return/linefeed， 简 写 为 CR-LF) 对 (也 常 写作 "\r\n") 结 
尾 。 而 Unix 风 格 的 换行 符 则 只 是 一 个 "\n"。 不 管 把 谁 当 作 谁 ， 弄 错 了 的 话 出 来 的 结果 就 
会 很 公 异 。 借 助 :crlf 层 ， 我 们 就 可 以 自动 解决 这 个 问题 关 ?) 。 如 果 想 要 确保 得 到 的 文 
件 每 行 都 以 CR-LEF 结 尾 ， 就 得 在 操作 该 文件 时 使 用 这 个 特殊 层 : 


Open BEDROCK， ">:cIr1f  ，$file_namej 


现在 每 行 写 和 文件 时 ， 该 层 就 会 把 每 个 换行 符 转换 为 CR-LF。 不 过 请 注意 ， 如 果 原 本 就 
是 CR-LF 风 格 的 话 ， 转 换 后 会 多 出 一 个 换行 符 。 


读 取 DOS 风 格 的 文件 时 也 可 以 这 样 转换 : 
open BEDROCK，"“:crlf ，$file_name; 


读 入 文件 的 同时 ，Perl 会 把 所 有 CR- LEF 都 转换 为 Unix 风 格 的 换 和 村 符 。 


进 制 方式 读 写 文件 句柄 


的 就 算 知 道 也 不 必 每 次 都 写 明 。 
在 以 前 比较 旧 的 Perl 版 本 中 ， 如 果 不 希望 转换 换行 符 ， 比 如 某 个 二 进 制 文件 中 恰好 有 一 
段 字 节 顺 序 和 换行 符 的 内 码 相 同 ， 可 以 用 binmode 关 闭 换行 符 相关 的 处 理 [ 注 33] ， 


bjinmode STDOUT; # 不 要 转换 行 符 
binmode STDERR; # 不 要 转换 行 符 


从 Perl5.6 开 始 ， 你 可 以 在 binmode 的 第 二 个 参数 的 位 置 上 指定 层 [ 往 ?4] 。 如 果 你 希望 输出 
Unicode 到 STDOUT， 就 要 确保 STDOUT 知 道 如 何 处 理 它 拿 到 的 数据 


binmode STDOUT，“" :encoding(UTF-8) ; 


如 果 不 这 么 写 的 话 ， 会 得 到 警告 信息 (就 算 没 有 启用 警告 功能 也 会 ) ， 因 为 STDOUT 不 知 
道 该 如 何 处 理 编码 上 的 问题 : 


Wide character in print at test Line 1. 


注 32: ”幸运 的 是 ，:CT]f 编 码 在 Windows 系 统 上 也 是 默认 就 支持 的 。 

注 33:; “这 和 在 FTP 客户 端 中 设置 二 进 制 传输 模式 的 概念 极为 相似 ， 如 果 你 还 记得 这 个 东西 的 
话 。 

注 34: ”Perl $.6 把 它 称 为 变换 规则 (discipline) ， 但 之 后 改称 为 层 (iayer) 。 
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实际 上 ， 不 管 输入 还 是 输出 ， 都 可 以 用 binmode 指 定 特定 行为 。 如 果 传 到 标准 输入 的 是 “ 
UTEF-8 编 码 的 字符 ， 那 么 应 该 事先 告诉 Perl 按 照 UTF-8 的 方式 处 理 : 


binmode STDIN，“":encoding(UTF-8) ; 


有 问题 的 文件 句 顶 
Perl 和 其 他 程序 语言 一 样 ， 它 自身 是 无 法 打开 系统 中 的 文件 的 ， 只 能 要 求 操作 系统 代 
劳 。 当 然 ， 操 作 系统 也 可 能 会 以 权限 不 足 、 文 件 名 错误 等 理由 拒绝 打开 。 


如 果 试 着 从 有 问题 的 文件 句柄 〈 即 没有 正确 打开 的 文件 句柄 或 关闭 的 网 络 连接 ) 读 取 数 
据 ， 会 立刻 读 到 文件 结尾 〈 对 于 你 将 会 在 本 章 看 到 的 各 种 IO 方法 而 言 ，“ 文 件 结尾 ”在 
1 在 列表 上 下 文中 则 是 空 列表 ) 。 如 果 试 图 将 数据 写 进 有 问题 的 
文件 句柄 ， 这 些 数 据 将 会 被 无 声 无 息 地 丢弃 。 


幸好 ， 这 种 可 怕 的 情况 能 轻易 避免 。 首 先 ， 如 果 我 们 一 开始 就 用 -w 选 项 或 者 warnings 编 
译 指 令 来 启用 警告 功能 的 话 ， 那 么 在 用 到 有 问题 的 文件 句柄 时 ，Perl 会 发 出 警告 。 但 即 
使 没有 启用 警告 功能 ，open 的 返回 值 也 能 告诉 我 们 它 的 执行 结果 成 功 与 否 : 返回 真 表示 
成 功 ， 返 回 假 则 表示 失败 。 所 以 ， 程 序 可 以 写成 这 样 ; 

my $success = open L060,“>>'， "1ogfile'; # 捕获 返回 值 

计 ( ! $success ) 

# open 操作 失败 
5 


当然 ， 你 可 以 照搬 这 种 写法 ， 不 过 稍 后 我 们 还 会 看 到 更 简单 流畅 的 写法 。 
关闭 文件 句柄 
当 你 不 再 需要 某 个 文件 句柄 时 ， 可 以 用 close 操 作 符 来 关闭 它 ; 


Cl0se BEDROCK; 


所 谓 关闭 文件 句柄， 就 是 让 Perl 通 知 操作 系统 ， 我 们 对 该 数据 流 的 处 理 已 经 全 部 完成 ， 
所 以 请 系统 将 尚未 写 入 的 输出 数据 写 到 磁盘 ， 以 免 有 人 等 着 使 用 [ 注 351 。 当 你 重新 打开 





注 3$: ”假如 你 芍 悉 IO 系统 ， 你 应 该 知道 这 里 还 有 很 多 细节 。 一 般 来 说 ， 当 文件 句柄 关闭 的 时 候 
情况 会 是 这 样 的 : 如 果 文件 中 仍 有 输入 ， 它 会 被 忽略 ; 如 果 管 道中 仍 有 输入 ， 那 么 对 这 
个 管道 进行 写 操作 的 程序 会 收 到 管道 被 关闭 的 信号 ; 如 果 有 到 文件 或 者 管道 的 输出 ， 那 
么 缓冲 区 会 被 刷新 (也 就 是 保存 在 缆 冲 区 的 内 容 会 被 马上 发 送出 去 ) ; 如 果 文 件 旬 柄 加 
了 人 锁 ， 那 么 锁 会 被 释放 。 更 多 的 细节 ， 请 参阅 相关 操作 系统 的 文档 ， 特 别 是 关于 LO 的 
齐 节 。 








某 个 文件 句柄 时 〈 也 就 是 说 ， 在 新 的 open 命 令 中 重用 之 前 的 文件 句柄 名 ) ，Perl 会 自动 
关闭 原先 的 文件 句柄 。 在 程序 结束 时 ，Perl 也 会 自动 关闭 文件 句柄 [ 注 361 。 





正 因为 Perl 这 么 贴心 ， 所 以 很 多 简单 的 小 程序 都 不 必 操心 关 闭 的 问题 。 但 是 若 你 想 要 写 
得 工整 些 ， 请 为 每 个 open 搭 配 一 个 close。 最 好 是 在 每 个 文件 句柄 用 完 之 后 就 立刻 关闭 
它 ， 哪 怕 程 序 马上 就 结束 了 [ 注 ?71 。 


用 die 处 理 致命 错误 


让 我 们 先 稍稍 岔 开 一 下 话题 。 目 前 需要 一 种 不 直接 相关 于 (或 者 说 不 只 用 于 ) IO 的 机 
制 ， 用 于 在 异常 发 生 时 提前 退出 程序 。 


当 Per] 遇 到 致命 错误 时 〈 例 如 : 除 以 零 ， 使 用 不 合法 的 正则 表达 式 ， 或 调用 未 定义 的 子 
程序 等 等 ) ， 你 的 程序 应 该 立刻 中 止 运行 ， 并 发 出 错误 信息 告知 原因 [二 ?381 。 这 样 的 功 
能 可 以 用 die 函 数 来 实现 ， 它 让 我 们 能 够 自己 触发 致命 错误 并 给 出 错误 消息 。 


die 国 数 会 输出 你 指定 的 信息 到 专 为 这 类 信息 准备 的 标准 错误 疲 中 ， 并 且 让 你 的 程序 立 
刻 终止 并 返回 不 为 零 的 退出 码 。 


你 可 能 还 不 知道 ， 每 个 在 Unix (以 及 许多 其 他 现代 操作 系统 ) 上 运行 的 程序 都 会 有 一 个 
退出 状态 (exit status) ， 用 来 通知 操作 系统 该 程序 的 运行 是 否 成 功 。 那 些 以 调用 其 他 程 
序 为 工作 内 容 的 程序 《比如 工具 程序 make) 会 查看 那些 程序 的 结束 状态 来 判断 是 否 一 切 
顺利 。 所 谓 的 “结束 状态 ”其 实 只 用 一 个 字 节 来 表示 ， 所 以 它 能 传递 的 信息 不 多 。 传 统 
上 ， 零 代表 成 功 ， 非 零 代表 失败 。 也 许 “1” 代 表 命令 参数 中 的 语法 错误 ，“2” 代 表 处 
理 某 程序 时 发 生 了 错误 ， 而 “3” 则 可 能 代表 找 不 到 基 个 配置 文件 ， 各 个 程序 的 细节 不 
尽 相 同 。 但 是 ，“0” 一 定 代表 程序 顺利 完成 。 像 make 这 样 的 程序 ， 在 看 到 失败 的 结束 
状态 时 就 不 会 再 执行 下 一 步 了 。 
注 36: ”退出 程序 会 关闭 所 有 的 文件 句柄 ， 但 是 如 果 Perl 本 身 出 错 了 ， 那 么 缓冲 区 的 内 容 不 会 被 
刷新 。 也 就 是 说 ， 如 果 你 的 程序 由 于 除 以 霍 而 意外 崩 清 了 ，Perl 仍 会 在 运行 ， 它 仍 能 保 
证 你 的 数据 及 时 地 得 到 输出 。 但 是 如 果 Perl 本 身 无 法 运行 了 (比如 内 存 不 足 或 者 收 到 
了 总 外 信号 ) ， 那 么 最 后 的 一 点 数据 可 能 就 无 法 及 时 得 到 处 理 〈 输 出 或 写 到 磁盘 ) 。 不 
过 ， 这 通常 不 是 什么 大 问题 。 





注 37: “关闭 文件 句柄 会 刷新 输出 缓冲 并 释 放 该 文件 上 的 锁 。 因 为 可 能 有 人 等 着 用 这 些 文件 ， 所 
以 需要 长 时 间 运 行 的 程序 最 好 有 尽 可 能 快 地 关闭 它 打 开 的 文件 句柄 。 但 是 我 们 很 多 的 程序 ， 
也 许 只 需要 一 两 秒 就 运行 完了 ， 所 以 这 种 情况 下 你 不 关闭 也 没 问题 。 关 闭 文件 揣 柄 同样 
也 会 释放 可 能 的 有 限 资源 ， 所 以 它 不 仅仅 只 是 为 了 程序 看 起 来 工整 而 已 。 

注 38: “当然 ， 这 是 默认 情况 。 但 错误 也 可 能 被 eval 语 名 块 捕获 ， 稍 后 我 们 会 在 第 十 七 章 中 作 进 
一 步 介绍 。 
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所 以 ， 我 们 可 以 将 前 面 的 例子 改写 成 这 样 : 


计 ( !1open L06，'>>， "1ogfile”) { 
die "Cannot cTeate 1ogfile: $!”; 
】} 


如 果 open 失 败 ，die 会 终止 程序 的 运行 ， 并 且 告诉 我 们 无 法 创建 日 志文 件 。 可 是 冒号 后 
面 的 $! 代表 什么 呢 ? 那 就 是 可 读 的 系统 错误 信息 。 一 般 来 说 ， 当 系统 拒绝 我 们 请 求 的 服 
务 时 〈 比 如 打开 某 个 文件 ) ，$1 会 给 我 们 一 个 解释 。 在 这 个 例子 里 ， 也 许 是 “权限 不 足 
(permission denied) ”或 “文件 找 不 到 (file not found) ”之 类 的 ， 也 就 是 你 在 C 或 是 
其 他 类 似 的 语言 里 调用 perror 取 得 的 字符 串 。 这 个 解释 性 的 系统 错误 信息 就 保存 在 Perl 
的 特殊 变量 $1 中 [ 广 3?1 。 因 此 ， 将 $1 放 到 错误 信息 中 帮助 用 户 了 解 自 己 遇 到 了 什么 问 
题 ， 这 是 个 不 错 的 主意 。 不 过 ， 倘 车 你 用 die 函 数 来 显示 程序 中 不 属于 系统 服务 请 求 的 错 
误 ， 这 种 时 候 请 不 要 在 信息 里 加 上 $1， 因 为 这 时 它 保存 的 可 能 只 是 Perl 底 层 操 作 导致 的 无 
关 信息 。 只 有 在 系统 服务 请 求 失败 后 的 瞬间 ，$1! 的 值 才 会 有 用 。 如 果 操 作成 功 了 ， 就 不 
会 在 $! 里 留 下 任何 有 用 的 信息 。 


die 还 会 帮 你 做 一 件 事 。 它 会 自动 将 Perl 程 序 名 和 行 号 往 4] 附加 在 错误 信息 的 后 面 ， 因 
此 你 就 可 以 轻易 判断 出 程序 里 的 哪个 die 函 数 才 是 造成 程序 过 早 结束 运行 的 原因 。 在 上 
一 个 例子 里 ， 可 能 会 看 到 如 下 错误 信息 (假设 $! 的 内 容 是 permission denied) : 


Cannot crfeate 1ogfile: pexrmission denied at your_pTrogTam line 1234. 


这 非常 有 用 ! 事实 上 ， 每 当 我 们 想 要 了 解 错误 信息 的 内 幕 ， 总 会 需要 程序 代码 行 号 。 
如 果 你 不 想 显示 行 号 和 文件 名 ， 请 在 die 函 数 中 的 错误 信息 尾 端的 加 上 换行 符 。 企 二 全 
说 ，die 的 另 一 种 用 法 就 是 加 上 结尾 的 换行 符 ， 形 式 如 下 所 示 ， 


if (@ARGV < 2) { 
die “Not enough argumentsNn ; 
】 


如 果 命 令 行 参数 不 足 两 个 ， 范 例 程序 会 显示 这 行 信息 并 中 止 运行 。 因 为 行 号 在 此 处 对 用 
户 并 没有 用 处 《毕竟 这 是 用 户 导致 的 错误 ) ， 所 以 这 里 并 不 会 显示 程序 名 和 行 号 。 一 个 


注 39， ”在 某 些 非 Unix 的 操作 系统 中 ，$1 可 能 包含 类 似 error number 7 的 信息 ， 从 而 让 用 户 去 相 
关 的 文档 中 查看 到 底 是 哪里 出 错 了 。 在 Windows 和 VMS 系 统 中 ， 特 殊 变 量 $^E 可 能 会 包含 
一 些 附 加 的 诊断 信 和 急 。 

. 注 40:， “如 果 在 读 取 文件 块 的 时 候 发 生 了 错误 ， 那 么 出 错 信 息 还 会 包含 “ 决 编号 ” (一 般 是 行 
号 ) 和 文件 句柄 名 ， 这 些 信 息 对 于 跟踪 bug 很 背 用 。 
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建议 就 是 ， 用 来 指示 用 法 错误 的 信息 里 可 以 加 上 结尾 的 换行 符 ， 但 是 若 想 在 调试 过 程 中 
追踪 相关 的 错误 ， 就 不 要 加 上 结尾 的 换行 符 [ 注 41 。 


请 一 定 记 得 检查 open 的 返回 值 ， 因 为 之 后 的 程序 代码 必须 在 文件 打开 成 功 时 才能 顺利 运 
行 。 


用 warn 送 出 警告 信息 

恰 如 die 函 数 的 功能 是 产生 像 Perl 的 内 置 错误 这 样 的 致命 错误 〈 比 如 除 以 零 ) 一 样 ，warn 
函数 的 功能 就 是 产生 类 似 于 Perl 的 内 置 警告 信息 的 信息 (比如 启用 警告 信息 时 ， 使 用 某 
个 undef 变 量 却 将 它 当 成 已 有 值 来 参与 运算 ， 就 会 触发 警告 信息 ) 。 


wazrn 函 数 的 功能 就 和 die 国 数 差 不 多 ， 不 同 之 处 在 于 最 后 一 步 ， 它 不 会 终止 程序 的 运行 。 
如 有 需要 ， 它 也 可 以 加 入 程序 名 与 行 号 ， 而 且 它 会 将 信息 送 到 标准 错误 流 ， 这 点 是 和 
die 函 数 一 致 的 [ 畦 42] 。 


在 讨论 过 如 何 发 出 致命 错误 信息 和 普通 警告 信息 之 后 ， 现 在 回 到 有 关 I/O 的 事情 上 来 ， 请 


自动 检测 致命 错误 
从 Perl 5.10 开 始 ， 为 人 称道 的 autodie 编 译 指令 已 经 成 为 标准 库 的 一 部 分 。 像 下 面 这 个 例 
子 ， 原 来 的 写法 是 自己 检查 open 的 返回 值 并 处 理 错误 ， 


if ( 1 open L06， ">> ， "1ogfile”) 
die “Cannot create 108file: $1 ”; 


每 次 打开 一 个 文件 句柄 都 要 这 么 写 一 遍 的 话 ， 无 疑 是 十 分 繁琐 的 。 现 在 有 了 autodie 编 
译 指令 ， 这 部 分 工作 便 得 以 解放 。 如 有 果 open 失 败 ， 它 会 自动 启动 die; 


use autodie; 


注 41: ”程序 名 保存 在 Perl 的 特殊 变量 $0 中 ， 你 可 以 把 它 加 在 这 行 中 : $0:Not enough arguments'\ 
n， 当 你 的 程序 在 管道 或 者 shell 脚 本 中 被 使 用 ， 却 不 清楚 是 其 中 哪个 命令 正在 抱 把 的 时 
候 ， 这 样 做 会 非常 有 用 。 但 是 ， 在 程序 执行 的 时 候 $0 还 是 可 以 被 改变 的 。 另 外 你 可 能 还 
想 了 解 一 下 _FILE_ 和 _ LINE_ 这 两 个 特殊 记号 (或 者 Caller 男 数 ) ， 这 样 你 就 可 以 自 
已 写 一 行 语 提 来 输出 符合 你 的 格式 要 求 的 信息 。 
注 42: ”和 致命 错误 不 同 ， 警 告 是 无 法 被 eval 捕 获 的 。 如 果 确 实 想 要 捕获 警告 的 话 ， 请 参阅 文档 
中 有 关 _WARN 的 章节 (在 perivar 文 档 里 面谈 到 %SITG 的 部 分 ) 。 
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open LO0G， ">> ， "1ogfijle'; 


这 条 编译 指令 是 靠 判 别 具 体操 作 的 类 型 来 工作 的 。 如 果 Perl 内 置 函 数 的 幕后 操作 需要 调 
用 操作 系统 接口 的 话 ， 那 么 中 途 出 现 的 错误 并 不 是 编程 人 员 所 能 控制 的 ， 所 以 一 旦 发 现 
这 部 分 系统 调用 出 错 ，autodie 便 会 自动 帮 你 调用 die， 而 它 发 出 的 错误 信息 也 大 体 和 我 
们 自己 组 织 的 不 相 上 下 ; 


Can open('>>' "logfile'): No such file or directory at test line 3 


使 用 文件 句柄 


一 旦 文件 句柄 以 读 取 模式 打开 后 ， 便 可 以 从 它 读 取 一 行 行 数据 ， 就 像 从 STDIN 读 取 标准 
输入 波 中 的 数据 一 样 。 来 看 读 取 Unix 系 统 密 码 文件 的 例子 ， 


if ( !1 open PASSWD，"/etc/passwd") { 
djie "How did you get logged in? ($1)"; 


} 

whjile (<PASSWD>) { 
-chomp; 

} 


在 这 个 例子 里 ，die 的 信息 中 用 了 一 对 括号 围 住 $! 。 它 们 只 不 过 是 括 住 输出 信息 的 括号 而 . 
已 《有 时 候 标点 符号 就 只 是 标点 符号 ) 。 正 如 你 看 到 的 ， 所 谓 的 “ 行 输入 操作 符 ” 是 由 
两 部 分 组 成 的 : 一 对 尖 括 号 〈 真 正 的 行 输入 操作 符 ) 以 及 里 面 用 来 输入 的 文件 句柄 。 


以 写 人 或 漆 加 模式 打开 的 文件 句柄 可 以 在 print 或 printf 国 数 中 使 用 。 使 用 时 ， 请 直接 将 
它 放 在 函数 名 之 后 、 参 数列 表 之 前 ， 

print LOG ， Captain s 108，stardate 3.14159\n"; # 输出 到 文件 句柄 LOG 

piintf STDERR “%d percent Compjete.\n" ，$done/$total * 100; 
你 注意 到 文件 句柄 和 要 输出 的 内 容 之 间 没 有 逗号 了 吗 { 尼 431 9 有 括号 时 ， 它 看 起 来 会 更 
奇怪 。 但 下 面 两 种 写法 都 设 错 ; 


printf (STDERR “%d percent complete.\n"，$done/$total * 100); 
pzintf STDERR 〈"%d percent complete.\n"，$done/$total *# 100); 


注 43: ”如果 你 对 英语 或 者 语言 学 很 在 行 ， 当 我 们 说 这 种 情况 叫做 “间接 对 象 语法 ”的 时 候 ， 你 
可 能 会 说 : “ 蛾 ! 当然 拉 ! 句柄 名 后 面 没有 跟 过 号 一 所 以 它 是 间接 对 和 象 ! ”但 是 其 实 
我 们 并 不 懂 为 什么 这 里 就 不 用 去 号 ， 之 所 以 省 略 过 号 是 因为 Larry 说 这 个 过 号 是 可 以 省 略 
的 。 
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改变 默认 的 文件 输出 句柄 
默认 情况 下 ， 假 如 你 不 为 print (或 是 printf， 我 们 下 面 的 说 明 对 两 者 都 有 效 ) 指定 文件 
句柄 ， 它 的 输出 就 会 送 到 STDOUT。 不 过 ， 你 可 以 使 用 select 操 作 符 来 改变 默认 的 文件 名 
柄 。 请 看 下 面 的 例子 ， 我 们 把 默认 输出 改 成 BEDROCK 这 个 文件 句柄 : 

selLect BEDROCK; 

print "I hope Mr。Slate doesn't find out about this.\n ; 

pzint “WilImalNAn 3; 
一 且 选 择 (selecDb 了 输出 用 的 软 认 文件 句柄 ， 程 序 就 会 一 直 往 那里 输出 。 但 是 ， 这 么 做 很 
容易 使 余下 的 程序 变 得 混 奖 ， 所 以 这 并 不 是 一 个 好 办 法。 因此 ， 当 你 所 指定 的 软 认 文件 
句柄 使 用 完毕 之 后 ， 最 好 把 它 设 回 原先 的 默认 值 STDOUT FE“ 。 将 数据 输出 到 文件 句柄 
时 ， 默 认 情 况 下 都 会 经 过 缓冲 处 理 。 不 过 ， 只 要 将 特殊 变量 $| 设 定 为 1， 就 会 使 当前 的 
(也 就 是 修改 变量 时 所 指定 的 ) 软 认 文件 句柄 在 每 次 进行 输出 操作 后 立刻 刷新 缓冲 区 。 
所 以 ， 如 果 要 让 输出 的 内 容 立 即 显示 〈 比 如 在 读 取 监 视 某 个 耗 时 程序 的 实时 日 志 时 ) ， 
应 该 这 么 做 : 

select LO0G; 

$| = 1; # 不 要 将 L06 的 内 容 保留 在 缓冲 区 。 


5 STDOUT; ， 


# …… 时 间 流逝 ， 婴 儿 都 学 会 走路 了 ， 斗 转 必 移 之 后 …… 
nt L0G "This gets Written to the LOG at oncelNn ; 


重新 打开 标准 文件 句 栖 


我 们 之 前 提 过 ， 如 果 重 新 打开 某 个 文件 句柄 (比如 要 打开 某 个 名 为 FRED 的 文件 句柄 时 ， 
全 人 ，Per]l 会 自动 帮 你 关闭 原来 那 
。 我 们 也 提 到 过 ， 你 不 应 该 复 用 Per]l 的 6 个 标准 文件 句柄 ， 除 非 你 想 使 用 该 文件 句柄 实 
人 能 。 我 们 还 说 过 ， 来 自 die 和 warn 的 信息 以 及 Perl 内 部 的 出 错 信 息 都 会 自动 送 到 
STDERR。 如 果 以 上 三 个 知识 能 融会 贯通 ， 你 就 会 意识 到 ， 错 误 信息 不 一 定 都 要 送 到 程序 
的 标准 错误 输出 流 ， 也 可 以 送 到 文件 里 ! 兰 45] ， 


注 44: ”在 某 些 情况 下 可 能 想 选择 的 向 柄 不 是 STDOUT， 你 可 以 在 perljinc 文 档 中 查看 关于 select 的 内 
容 ， 了 解 如 何 保存 和 恢复 当前 文件 句柄 。 另 外 ， 实 际 上 在 perlPuanc 文 档 中 体能 找到 两 个 Perl 
内 置 的 select 孙 数 ， 它 们 虽然 名 字 一 样 ， 但 另 一 个 select 在 调用 时 需要 提供 4 个 参数 。 

注 4$: ”如果 没 有 充分 理由 的 话 ， 请 不 要 这 样 做 。 最 好 是 让 用 户 自己 在 运行 程序 时 决定 什么 信息 
该 重 定向 到 哪里 ， 而 不 是 由 你 把 它 硬 性 规定 在 程序 里 。 但 是 当 你 的 程序 被 其 他 程序 自动 
运行 〈 比 如 说 被 Web 服 务 器 或 者 CTon 或 at 这 些 进程 调度 工具 程序 ) 时 ， 又 或 者 你 的 程序 
要 启动 其 他 进程 (可 能 是 用 5ystem 或 exec 函 数 ， 你 会 在 第 十 四 章 看 到 ) 并 且 需 要 这 个 进 
程 有 不 同 的 IO 时 ， 这 样 做 会 比较 灵活 。 
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# 将 错误 信息 写 到 我 自己 的 错误 日 志 中 
计 ( 1 apen STDERR，">>/home/barney/ .erxYor 108") 
die "Can't open ezirotr log for append: $1”; 


在 重新 打开 了 STDERR 之 后 ， 任 何 从 Perl 产 生 的 错误 信息 都 会 送 到 新 的 文件 里 。 但 如 果 程 
序 执行 到 die 这 部 分 的 代码 ， 那 会 怎样 昵 ? 也 就 是 说 ， 如 果 无 法 成 功 打 开 文 件 来 接收 错 
误 信 息 ， 那 么 错误 信息 会 流 到 哪里 去 ? 


答案 是 : 在 重新 打开 这 三 个 系统 文件 句柄 STDIN、5TDOUT 或 STDERR 失 败 时 ，Perl 会 热心 地 
帮 你 找 回 原先 的 文件 句柄 [ 坟 4] 。 也 就 是 说 ，Perl 只 有 在 成 功 打开 新 的 句柄 连接 时 ， 才 
会 关闭 默认 的 系统 文件 句柄 。 所 以 程序 可 以 用 这 个 技巧 对 三 个 系统 文件 句柄 中 任何 一 个 
(或 全 部 ) 进行 重 定向 [ 注 471 ， 这 跟 “ 程 序 从 命令 行 运行 时 就 由 shell 进 行 JO 重 定向 ”的 
功能 是 一 样 的 。 


用 say 来 输出 
Perl 5.10 从 正在 开发 的 Perl 6 中 借 来 了 say 这 个 函数 〈 而 Perl 6 中 的 say 函 数 可 能 是 借鉴 了 
Pascal 的 println 国 数 ) 。 它 的 功能 和 pzrint 国 数 差 不 多 ， 但 在 打印 每 行内 容 时 会 自动 加 
上 换行 符 。 所 以 下 面 这 几 种 写法 的 最 终 输 出 结果 都 一 样 : 

USe 5.010j; 


print “HellolNn ; 

print “Hel1ol "Nm ; 

say “Hel10! ”; 
如 果 只 是 要 打印 某 个 变量 值 并 在 末尾 附 砷 换行 符 ， 其 实 不 必 额 外 构造 字符 串 ， 也 不 必 给 
pzint 函 数 提供 数据 列表 ， 只 要 直接 say 这 个 变量 就 可 以 了 。 在 你 想 输 出 某 些 内 容 并 换行 
时 ， 这 个 函数 非常 好 用 ， 

Uuse 5.010; 

my $name = “Fred ; 

print “$nameNn”; 


print $name， "An ”; 
5ay $name; 


但 在 内 插 数 组 时 ， 最 好 还 是 用 引号 将 它 括 起 来 ， 以 便 用 空格 隔 开 数组 中 的 每 个 元 素 ， 

注 46: “至 少 在 你 没 修改 特殊 变量 $F 的 情况 下 ，Perl 会 这 么 做 。 这 个 特殊 变量 告诉 Perl 在 复 用 这 
三 个 身 栖 失败 的 时 候 恢 复 它 们 的 默认 值 ， 最 好 不 要 修改 该 变量 。 

注 47: 。 别 把 STDIN 修 改 成 用 来 输出 的 文件 向 柄 ， 或 者 把 另外 两 个 标准 输出 名 栖 改 成 用 来 输入 的 各 
柄 。 这 种 把 它们 搞 混 满 的 事情 ， 想 想 都 头痛。 
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use 5.010; 
my @arTay = qu( abcd); 


say @arrayj  # 打印 “abcd\n" 
say“"@arTay"; # 打印 "a bc dvn"; 


和 print 函 数 一 样 ， 你 可 以 为 say 指 定 一 个 文件 句 栖 ， 
Use 5.010; 
” say BEDROCK "Hellol"; 
因为 这 是 Perl 5.10 的 新 特性 ， 所 以 只 能 在 启用 Perl 5.10 新 特性 的 情况 下 使 用 。 虽 然 传统 


的 print 一 样 可 以 工作 得 很 好 ， 不 过 我 们 觉得 一 定 有 许多 Per] 程 序 员 会 马上 换 用 这 个 新 函 
数 ， 这 样 每 次 都 可 以 省 掉 4 次 按键 〈 函 数 名 可 以 节约 两 个 ， 再 加 上 \n 这 两 个 字符 ) 。 


标量 变量 中 的 文件 句柄 


从 Perl 5.6 开 始 ， 我 们 已 经 可 以 把 文件 句柄 存放 到 标量 变量 中 ，. 而 不 必 非 得 使 用 裸 字 。 别 
小 看 这 点 差别 ， 带 来 的 好 处 可 不 少 。 成 为 标量 变量 后 ， 文 件 句柄 就 可 以 作为 子 程序 的 参 
数 传递 ， 或 者 放 在 数组 、 哈 希 中 排序 ， 或 者 严格 控制 它 的 作用 域 。 当 然 ， 有 关 裸 字 的 用 
法 还 是 需要 遵 记 在 心 的 ， 很 多 时 候 我 们 写 的 都 是 应 急 的 短小 脚本 ， 用 裸 字 更 快捷 ， 没 必 
要 用 变量 存储 文件 句柄 。 


在 open 函 数 中 原来 使 用 裸 字 的 地 方 写 上 不 含有 任何 值 的 变量 ， 那么 文件 句柄 就 会 存放 到 ， 
那个 变量 中 。 人 们 一 般 都 会 使 用 词法 变量 以 确保 该 变量 预先 是 空 的 ， 人 人 生生 人生 
名 后 面 添上 _fh 表 示 这 是 用 来 保存 文件 句柄 的 变量 ， 
my $rocks_fhy; 
open $rocks_fh，"("， Yocks.txt， 
or die“Could not open TOCKS .txt: 和 


甚至 于 你 还 可 以 把 这 两 步 并 作 一 乡 ， 人 


open my $rocks_fh，“ rocks， 丰 Xt” 
or die "Could not open ITOcks .txt: $1" 


得 到 保存 文件 句柄 的 变量 之 后 ， 只 要 把 原来 使 用 裸 字 的 地 方 改 成 用 这 个 变量 就 可 以 了 : 
while( <$rocks_fh> ) 1 
.Chomp; 
3 
输出 信息 到 某 个 文件 句柄 也 可 以 使 用 这 个 变量 。 在 原来 使 用 裸 字 的 地 方 使 用 这 个 标量 变 
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量 ， 便 能 以 适当 的 模式 打开 该 文件 句柄 : 


Open my $rocks_fh， ">> ， "TOCKS .txt 
or die “Could not open Tocks.txt: $I ”3; 


foreach my $rock ( qw( slate lava granite ) ) { 
Say $Tocks_fh $rock 
】 


print $rocks_fh “LimestoneNn ; 

close $rocks_fh; 
请 注意 ， 这 种 写法 仍然 不 需要 额外 的 逗号 。Perl 能 够 自动 判断 ， 如 果 跟 在 Print 后面 的 第 
一 个 参数 之 后 没有 逗号 ， 就 说 明 它 是 一 个 文件 句柄 ， 即 此 处 的 $fh。 要 是 误 加 了 逗号 ， 
那么 打印 出 来 的 东西 会 看 起 来 怪 怪 的 ， 这 当然 不 是 你 所 希望 的 ， 


prTint $rocks_fh，"]imestonevn"; # 错误 
这 段 代码 会 输出 类 似 下 面 这 样 的 字符 串 : 
GLO8B(OxABCDEF12)1imestone 


这 是 怎么 回 事 ? 说 起 来 也 很 简单 ， 因 为 第 一 个 参数 后 出 现 了 一 个 有 逗号 ， 所 以 Perl 会 把 这 
个 参数 当 作 要 打印 的 字符 串 而 不 是 文件 句柄 来 处 理 。 虽 然 我 们 还 没 介绍 过 有 关 引 用 的 概 
念 ， 不 过 如 果 有 兴趣 ， 可 以 翻 翻 我 们 另外 的 进 阶 书籍 《Intermediate Perl》， 其 中 有 关 将 
引用 字符 串 化 (srringication) 的 内 容 会 详细 解释 内 在 机 理 。 所 以 ， 根 据 上 面 的 原则 ， 
下 面 这 两 条 语句 实质 上 是 不 同 的 : | 

print 9TDOUT; 

pzint $rock_fh;j # 错误 ， 这 应 该 不 是 你 的 本 意 
在 第 一 个 例子 中 ，Perl 知 道 STD0UT 是 文件 句柄 ， 因 为 它 就 是 个 裸 字 。 由 于 其 后 没有 任 
何 参数 ， 所 以 它 会 打印 默认 变量 $ 中 的 内 容 。 而 在 第 二 个 例子 中 ，Perl 无 法 预先 判断 
$rock_fh 是 否 为 文件 句柄 ， 只 有 运行 到 这 条 语句 时 才 知 道 变量 里 面 保存 的 是 不 是 文件 名 
柄 ， 所 以 它 只 好 假设 标量 变量 $rock_fh 是 要 输出 的 字符 串 变量 。 要 解决 这 样 的 问题 并 不 
难 ， 只 要 用 花 括 号 围 住 文件 句柄 ，Per1 就 能 明白 它 的 正确 含义 ， 即 便 这 个 文件 句柄 保存 
在 数组 或 哈 希 中 也 没关系 : 

print { $rock_fh }; # 默认 打印 $ 中 的 内 容 

print { $rocks[0] }】 "sandstone\n ; 
根据 实际 编程 时 的 情况 ， 选 择 使 用 裸 字 或 者 标量 变量 都 没 问题 。 一 般 短 小 的 程序 ， 比 如 
系统 管理 员 的 工具 脚本 ， 用 用 裸 字 也 没什么 不 好 。 不 过 对 大 一 点 的 项 目 或 应 用 程序 来 
说 ， 使 用 标量 标量 的 方式 可 以 精确 控制 文件 句柄 的 作用 域 ， 方 便 调试 和 维护 。 
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习题 


以 下 习题 答案 参见 第 314 页 上 的 “第 五 章 习 题解 答 ”一 节 : 


1. 


[7] 写 一 个 功能 跟 cat 相 似 的 程序 ， 但 将 各 行内 容 反 序 后 输出 〈 有 些 操作 系统 会 有 一 
个 名 为 fac 的 类 似 工具 ) 。 假 如 用 ./tac fred barney betty 来 运行 你 的 程序 ， 它 的 
输出 结果 应 该 是 petty 文 件 的 最 后 一 行 到 第 一 行 ， 接 着 是 文件 parney 与 六 ed， 同 样 是 
由 最 后 一 行 到 第 一 行 。〈 如 果 你 将 此 程序 取 名 为 tac， 请 一 定 要 在 运行 时 加 上 ./， 
这 样 才 不 会 运行 你 的 系统 中 现 有 的 同名 程序 ! ) 

[8] 写 一 个 程序 ， 要 求 用 户 分 行 键入 各 个 字符 串 ， 然 后 以 20 个 字符 宽 、 向 右 对 章 的 
方式 输出 每 个 字符 串 。 为 了 确定 输出 结果 在 适当 的 字段 中 ， 请 一 并 输出 由 数字 组 成 
的 “标尺 行 (rule linej” (只 是 为 了 方便 调试 ) 。 请 确定 自己 没有 误 用 19 个 字符 宽 的 
字段 1! 比如 输入 hello、good-bye 后 应 该 会 得 到 下 面 这 样 的 输出 结果 : 

123456789012345678901234567890123456789012345678901234567890 

[8] 修 改 上 一 个 程序 ， 让 用 户 自 行 选择 字符 宽度 ， 因 此 在 键入 30 的 时 候 ，he11o、 
good-bye (在 不 同行 上 ) 应 该 会 向 右 对 齐 到 第 30 个 字符 (提示 : 关于 如 何 控制 变量 
的 内 插 ， 请 参阅 第 二 章 中 的 “字符 串 中 的 标量 变量 内 播 ”一 节 ) 。 附 加 题 ， 根据 用 
户 键入 的 宽度 ， 自 动 调整 标尺 行 的 宽度 。 ， 
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本 章 我 们 会 看 到 Perl 成 为 杰出 编程 语言 的 关键 特色 一 一 哈 希 二 1 。 尽 管 哈 希 非常 强大 有 
用 ， 但 那些 多 年 使 用 其 他 语言 的 人 却 可 能 从 未 听 说 。 不 过 从 现在 开始 ， 几 乎 在 每 个 Perl 
程序 中 你 都 会 用 到 哈 希 。 是 的 ， 它 真 的 非常 重要 。 


什么 是 哈 希 ? 


哈 希 是 一 种 数据 结构 ， 它 和 数组 的 相似 之 处 在 于 可 以 容纳 任意 多 的 值 并 能 接 需 取 用 ， 而 
它 和 数组 的 不 同 在 于 索引 方式 ， 数 组 是 以 数字 来 索引 ， 哈 希 则 以 名 字 来 索引 。 也 就 是 说 ， 
哈 希 的 索引 值 ， 此 处 称 为 键 (key)， 并 不 是 数字 ， 而 是 任意 唯一 的 字符 串 〈 参 见 图 6-1) 。 


哈 希 的 键 其 实 就 是 字符 串 ， 所 以 打 个 比方 ,我们 不 必用 数字 3 来 获取 数组 元 素 ， 我 们 可 
以 用 wilma 这 个 名 字 来 存 访问 逢 元 素 。 


这 些 键 可 以 是 任何 字符 串 一 一 你 可 以 用 任意 字符 串 表 达 式 作为 哈 希 键 。 它 们 也 必须 是 唯 
一 的 字符 吕 ， 就 像 数 组 只 能 有 一 个 编号 为 3 的 元 素 一 样 ， 哈 希 也 只 能 有 一 个 名 叫 wilma 的 
元 素 。 

另 一 种 看 待 哈 希 的 方法 ， 是 将 它 想 象 成 一 大 桶 数据 ， 其 中 每 个 数据 都 有 关联 的 标签 。 你 可 
以 伸手 到 桶 里 任意 取出 一 张 标签 ， 看 它 上 面 附着 的 数据 是 什么 。 但 是 桶 里 没有 所 谓 的 “第 
一 个 ”元 崇 ， 只 有 一 堆 数据 。 在 数组 里 ， 第 一 个 元 素 为 元 素 0， 然 后 是 元 素 1、2 等 等 ， 但 
哈 希 里 没有 顺序 ， 因 此 也 没有 所 谓 的 第 一 个 元 素 ， 有 的 只 是 一 堆 键 - 值 对 的 集合 罢了 。 





注 1: 以 前 我 们 是 叫 它 “ 关 联 数组 (associative array) ”的 。 但 在 1995 年 前 后 ，Perl 社 
区 认为 这 个 名 字 太 鹃 味 ， 写 起 来 也 麻烦 ， 于 是 我 们 把 名 字 改 成 了 “ 哈 希 (hash) ”。 
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“0 一 


“bar 一 一 一 和 


Am 
站 23 一 一 各 
“Awilma” 一 一 一 
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图 6-1， 恰 希 的 键 与 值 


这 些 键 和 值 都 是 任意 的 标量 ， 但 键 总 会 被 转换 成 字符 串 。 假 如 你 以 数字 表达 式 50120 为 
键 | 坟 3 ， 那 么 它 会 被 转换 成 一 个 含有 三 个 字符 的 字符 串 "2.5"， 恰 好 就 是 图 6-2 中 所 示 的 
一 个 键 。 











图 6-2， 恰 希 像 一 桶 数据 


和 以 往 一 样 ， 根 据 Perl“ 去 除 不 必要 的 限制 ”的 原则 ， 哈 希 可 能 是 任意 大 小 的 ， 从 没有 
任何 键 - 值 对 的 空 哈 希 到 填 满 内 存 的 巨大 哈 希 都 可 以 。 


注 2: 这 是 一 个 数字 表达 式 ， 而 不 是 有 5 个 字母 的 字符 事 "50/20"。 当 然 如 果 我 们 使 用 了 该 字符 
事 作 为 哈 硕 键 ， 那 它 就 会 保持 不 变 。 


某 些 语言 的 哈 希 实现 在 键 - 值 对 增多 时 会 逐渐 变 慢 ， 例 如 axwk 语 言 就 是 如 此 。Larry 正 是 
从 这 种 语言 中 引入 了 哈 希 。 但 Perl 的 版 本 没有 这 个 问题 ， 它 有 良好 、 高 效 、 可 伸缩 的 
算法 { 往 31 。 因 此 ， 如 果 某 个 哈 希 只 有 三 个 键 - 值 对 ， 那 么 从 中 提取 任意 一 项 数据 都 会 非 
常 快捷 。 如 果 某 个 哈 希 包含 300 万 个 键 - 值 对 ， 从 中 提取 任意 一 项 数据 还 是 会 和 原来 一 样 
快 ， 所 以 不 用 担心 巨 硕 的 哈 希 的 读 写 性 能 。 


2 
所 
语 


值得 一 提 的 是 : 虽然 这 些 键 是 唯一 的 ， 但 它们 对 应 的 值 是 可 以 重复 的 。 哈 希 的 值 可 以 是 
数字 、 字 符 串 、undef， 或 是 这 些 类 型 的 组 合 疆 4 。 但 哈 希 的 键 则 必须 全 部 是 唯一 的 字 
符 串 。 


为 何 使 用 哈 希 ? 

当 你 第 一 次 听 到 哈 希 时 ， 特 别 是 在 你 以 前 用 得 很 好 的 程序 语言 里 没有 哈 希 时 ， 也 许 会 对 
为 何 有 人 需要 这 个 奇特 的 怪物 而 感到 困惑 。 其 实 这 个 想法 的 根源 就 是 你 总 是 需要 将 一 组 
数据 “对 应 到 ” 另 一 组 数据 。 例 如 下 面 这 些 典 型 的 应 用 场景 ; 


按 名 字 找 姓 
以 名 字 作 为 键 ， 而 姓 可 以 成 为 相应 的 值 。 这 当然 需要 限定 名 字 是 唯一 的 ， 如 果 出 现 
了 两 个 叫做 randal 的 人 就 行 不 通 了 。 通 过 哈 希 可 以 按 任何 人 的 名 字 找 到 相应 的 姓 。 
例如 以 tom 为 键 可 取得 值 phoenix。 

撑 主 机 名 找 TP 地 本 
你 也 许 知道 在 因特网 上 每 台 计 算 机 同时 拥有 一 个 主机 名 (比如 Raztp://wmmw. 
stonehenge.com) 以 及 一 个 IP 地 址 (比如 123.45.67.89) 。 这 是 因为 机 器 喜欢 和 数字 
打交道 ， 但 是 一 般 人 比较 记得 住 名 字 。 主 机 名 是 唯一 的 字符 种， 可 以 用 来 作为 哈 希 
键 。 通 过 哈 希 可 以 按 主机 名 找到 相应 的 IP 地 址 i 注 5] 。 

巷 IP 坞 址 找 主机 名 8 
当然 ， 你 也 可 以 反 其 道 而 行 。 我 们 一 般 把 IP 地 址 当成 数字 ， 但 它们 也 是 唯一 的 字符 
串 ， 因 此 可 以 成 为 哈 希 键 。 在 这 个 哈 希 中 ， 我 们 可 以 查询 IP 地 址 以 决定 相应 的 主机 
名 。 请 注意 ， 这 个 哈 希 并 不 等 同 于 上 面 例子 中 的 哈 希 : 哈 希 是 从 键 到 值 的 单行 道 ， 
我 们 无 法 在 哈 希 中 查询 值 并 反 推 出 其 相应 的 键 ! 所 以 这 两 个 例子 是 成 对 的 哈 希 ， 一 


注 3: 技术 上 求 说 ，Peri 会 在 需要 时 重建 大 型 哈 硕 表 。 其 实 之 所 以 用 “ 哈 希 ”这 个 术语 就 是 因 
为 数据 类 型 就 是 用 哈 希 表 实现 的 。 


注 4; 事实 上 ， 任 何 标量 值 都 可 以 ， 也 包括 目前 还 没 提 到 的 其 他 标量 类 型 。 


注 $: 其 实 这 个 例子 并 不 恰当 ， 我 们 知道 有 些 主机 名 其 实 可 以 拥有 多 个 IP 地 址 ， 而 同一 个 IP 地 
址 上 也 可 以 绑 定 多 个 主机 名 。 不 过 这 里 只 是 说 明 下 概念 ， 你 明白 就 可 以 了 。 





个 存放 IP 地 址 ， 另 一 个 存放 主机 名 。 然 而 有 了 其 中 一 个 哈 希 ， 要 生成 另 一 个 哈 希 是 
相当 容易 的 ， 稍 后 可 以 看 到 。 
按 单 词 统计 其 出 现 次 数 

这 是 个 极为 常见 的 哈 希 应 用 ， 因 为 相当 常见 ， 所 以 可 能 会 在 章 未 的 习题 里 面 出 现 。 
这 里 的 想法 是 要 知道 某 个 文件 里 每 一 个 单词 出 现 的 频率 。 也 许 你 正在 为 一 堆 文件 纺 
写 素 引 ， 然 后 当 用 户 检索 fred 的 时 候 ， 就 能 知道 这 个 词 在 甲 文件 中 出 现 了 5 次 ， 在 
乙 文件 中 出 现 了 7 次 ， 而 在 两 文件 中 则 从 未 出 现 。 有 了 这 个 素 引 我 们 就 知道 哪个 文 
件 可 能 是 用 户 最 感 兴趣 的 。 在 索引 构造 程序 扫描 每 份 指定 的 文件 时 ， 对 于 每 个 找到 
的 fred， 就 给 fred 这 个 键 对 应 的 值 加 1。 也 就 是 说 ， 假 如 fred 之 前 在 文件 中 已 经 出 
现 过 两 次 ， 它 的 值 就 是 2， 现 在 它 会 被 加 到 3。 假 如 我 们 以 前 未 兽 见 过 fred， 该 值 就 
会 从 默认 的 undef 加 到 1。 


增 用 户 名 统计 每 个 人 使 用 (或 者 浪费 ) 的 磁 一 撩 数量 
系统 管理 员 会 喜欢 这 个 例子 : 系统 中 的 用 户 名 是 唯一 的 字符 串 ， 因 此 可 以 被 当成 哈 
希 的 键 来 检索 与 用 户 相 关 的 信息 。 

近 芍 驶 热 昭 号 码 拢 出 姓名 
也 许 有 许多 人 都 叫做 John Smith， 但 是 起 码 他们 应 该 有 不 同 的 驾照 号 码 。 因 此 叭 一 
的 驾照 号 码 可 以 成 为 键 ， 而 人 名 可 以 作为 值 。 


另 一 种 思考 方式 是 将 哈 希 当成 极其 简单 的 数据 库 ， 其 中 每 个 键 的 “名 下 ”都 只 能 存储 一 
块 相 应 的 数据 。 事 实 上 只 要 问题 中 旨 有 “ 找 出 重复 ”、“ 唯 一 ”、“ 交 叉 引 用 ”、“ 查 
表 ” 之 类 的 字眼 ， 实 现时 就 很 有 可 能 会 用 到 哈 希 。 


访问 哈 希 元 素 
要 访问 哈 希 元 素 ， 需 要 使 用 如 下 语法 ， 
$hash{$some_key} 


这 和 访问 数组 的 做 法 类 似 ， 只 是 使 用 了 伦 括号 (curly braces) 而 非 方 括号 (square 
brackets) 来 表示 索引 值 ( 哈 希 键 ) | 注 6 。 并 且 ， 现 在 的 键 表 达 式 是 字符 种 ， 而 非 数 字 ; 


$family_name{f fred } = “flintstone ; 
$family_name{f "bazney '} = “Tubble'; 


图 6-3 显 示 了 如 何 对 哈 希 键 赋值 。 


注 6: 为 什么 要 用 花 括号 ， 而 不 用 方 括号 呢 ? Larry 的 解 炙 是 : 因为 哈 项 的 访问 方法 要 比 常规 的 
数组 访问 更 酷 一 些 ， 所 以 也 自然 需要 使 用 更 花哨 的 括号 。 
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图 6-3， 哈 希 键 的 巾 什 
这 就 允许 我 们 写 出 这 样 的 代码 ; 


foreach my $person (qwc bazney fred >) { 

print "IT"ve heard of $person $family_name{$personj.Nn"; 
哈 希 变量 的 命名 和 其 他 Perl 的 标识 符 相似 ， 可 以 有 字母 、 数 字 和 下 划 线 ， 但 不 可 以 用 数 
字 开 头 。 另 外 哈 希 有 自己 的 名 字 空 间 ， 也 就 是 说 哈 希 元 素 $family_namef"fred"]j 和 子 
程序 kfamily_name 之 间 毫 无 关联 。 当 然 也 没有 必要 故弄玄虚 地 把 所 有 东西 都 起 同样 的 名 
字 。 假 如 同时 有 一 个 名 叫 $family_name 的 标量 变量 以 及 像 $family_name[5] 这 样 的 数组 元 
素 ，Perl 也 毫 不 在 意 。 我 们 人 类 要 学 习 Perl 的 做 法 ， 换 名 话说， 我 们 必须 仔细 看 清楚 标识 
符 前 后 的 标点 符号 来 判断 它 的 真实 意义 。 倘 若 名 称 之 前 有 一 个 美元 符号 而 之 后 紧 接着 花 
括号 ， 那 么 此 处 访问 的 就 是 一 个 哈 希 元 素 。 


在 挑选 哈 希 名 的 时 候 ， 最 好 使 得 哈 希 名 和 键 之 间 能 放 进 去 一 个 “for” 字 。 比 如 
“family_name for fred 是 flintstone”， 因 比 把 会 命 名 为 fandly-， name 能 清晰 地 反映 
出 键 和 值 之 间 的 关系 。 


当然 ， 哈 希 键 不 一 定 是 上 面 例子 里 的 字符 串 或 简单 的 标量 变量 ， 也 可 以 是 任意 的 表达 
式 : 


$foo =“bar ; 
print $family_name{f $foo . "ney” j}; # 打印 "zubble” 


， 著 对 某 个 已 存在 的 哈 希 元 素 赋 值 ， 就 会 覆盖 之 前 的 值 ， 


$family_namef 'fred'} = 'astaire'; # 给 已 有 的 元 素 赋 上 新 值 
$bedrock = $family_namef'fred']; ，# 得 到 "astaire"， 早 先 的 值 已 不 存在 


这 和 数组 与 标量 的 情形 类 似 ， 如 果 对 $pebbles[17] 或 者 gdino 赋 值 ， 就 会 覆盖 其 之 前 的 
值 。 如 果 对 $family_namef"fred"]j 赋 值 ， 同 样 会 覆盖 其 之 前 的 值 。 


哈 希 元 素 会 因 赋 值 而 诞生 ， 


$family_namef 'wilma'} = 'flintstone'; # 增加 一 个 新 的 键 - 值 对 
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$family_namef'betty'] .= $family_namef'barney']; # 在 需要 的 时 候 动 态 创建 该 元 素 
这 和 数组 与 标量 的 情形 如 出 一 东 往 7) ， 假 如 以 前 不 存在 gpebblesf17] 或 fdino， 赋 值 之 
后 这 些 变量 就 会 出 现 ， 假 如 以 前 不 存在 $family_namef "betty"}， 现 在 就 可 以 如 法 炮制 。 
访问 哈 希 表 里 不 存在 的 值 会 得 到 undef: 

4$8granite = 人 # 没有 larry 这 个 键 ， 所 以 值 为 undef 
是 的 ， 这 个 效果 跟 数 组 与 标量 的 情形 相似 : 假如 $pebbles[17] 或 $dino 里 还 没有 值 ， 访 问 


这 些 变量 时 会 得 到 undef;， 假如 设 有 任何 值 存 放 在 $family_ name{f"1Larzy"j 中 ， 访 问 它 的 
时 候 也 会 得 到 undef。 


访问 整个 哈 希 
要 指 代 整 个 哈 希 ， 可 以 用 百 分 号 〈%) 作为 前 缀 。 因 此 前 面 我 们 使 用 的 哈 希 准确 来 说 应 
该 称 之 为 %Mfamily_name。 1 


为 了 方便 起 见 ， 哈 希 可 以 被 转换 成 列表 ， 反 之 亦 然 。 对 哈 希 赋值 (下面 这 个 例子 来 自 于 
图 6-1) 等 同 于 在 列表 上 下 文中 赋值 ， 列 表 中 的 元 素 应 该 为 键 - 值 对 [入 81 ， 


X%some_hash = (〈'foo'，35， "bar'，12.4，2.5， "hel1o'， 
"Wilma'，1.72e30，“"betty'“， "byeNxn "); 


在 列表 上 下 文中 ， 哈 希 的 值 是 简单 的 键 - 值 对 列表 
二 
@any_azTray = %some_hash; 


我 们 把 这 个 变换 叫做 展开 (xnwinding) 哈 希 ， 将 它 变 成 键 - 值 对 列表 。 当 然 ， 得 到 的 键 - ， 
值 对 不 一 定 是 按照 当初 赋值 时 的 顺序 展开 : 
pzrint "@any_arYrayN\n "; 
# 可 能 会 给 出 像 这 样 的 结果 ， 
# betty bye (以 及 一 个 换行 符 ) wilma 1.72e+30 foo 35 2.5 hello bar 12.4 
之 所 以 顺序 乱 掉 是 因为 Perl 已 经 为 哈 希 的 快速 检索 而 对 键 - 值 对 的 存储 作 了 特别 的 排 
序 [二 9】 。 因 此 选择 使 用 哈 希 的 场合 ， 要 么 元 素 存储 顺序 无 关 紧 要 ， 要 么 可 以 容易 地 在 
元 素 输出 时 进行 排序 。 
注 7: 这 种 特性 称 为 自动 延展 〈auiovivification) ， 我 们 在 《Intermediate Perl》 一 书 中 有 讨论 。 
注 8: 尽管 任何 列表 都 可 以 使 用 ， 但 必须 得 有 偶数 个 元 素 ， 因 为 哈 希 必须 是 由 键 - 值 对 组 成 。 夺 
数 会 时 致 不 可 靠 的 结果 ， 当 然 你 仍然 可 以 忽略 这 个 人 警告。 
注 9: Perl 还 会 刻意 打 乱 键 - 值 对 的 顺序 ， 这 样 黑 客 就 无 法 预知 信息 是 如 何 存储 的 。 
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当然 ， 即 使 键 - 值 对 的 顺序 被 打 乱 ， 列 表 里 的 每 个 键 还 是 会 “黏着 ”相应 的 值 。 所 以 ， 
即使 无 法 知道 某 个 键 foo 会 出 现在 列表 的 哪个 位 置 ， 仍 然 可 以 确信 相应 的 值 35 会 跟 在 后 
面 。 


哈 希 赋值 
这 不 是 常见 用 法 ， 但 哈 希 真 的 可 以 用 一 般 的 赋值 语法 来 复制 : 
my %new_hash = %o1ld_hash; 


这 里 Perl 做 的 工作 要 比 看 到 的 繁杂 得 多 。 不 像 Pascal 或 C 语 言 里 简单 的 复制 内 存 块 的 做 
法 ，Perl 的 数据 结构 更 为 复杂 ， 所 以 底层 实现 也 大 不 相同 。 大 致 上 ， 这 行 代码 会 先 把 
%o1d_hash 展 开 为 键 - 值 对 列表 ， 然 后 通过 列表 赋值 重新 构造 每 个 键 - 值 对 ， 最 终 形成 新 的 
哈 希 Mnew_hash。 


但 根据 现 有 哈 希 转换 得 到 新 哈 希 倒是 非常 常见 。 比 如 建立 一 个 反 序 的 哈 希 : 
my %jinvetse_hash = Teverse %any_hash; 


这 会 将 %any_hash 展 开 成 为 键 - 值 对 列表 ， 看 起 来 是 (key，valuekey， 
vqlIuUevkey，valIue，…) 这 样 。 然 后 利用 revezse 的 列表 翻转 功能 形成 一 个 
(Value key，Vvqlue,key，vqlue,key，…) 这 样 的 新 列表 ， 键 值 达成 互 换 。 当 结果 存 
回 %inverse_hash 时 ， 我 们 就 能 以 原本 在 %any_hash 里 的 值 来 进行 检索 ， 它 已 经 成 为 
%inverse_hash 的 键 ， 而 按 它 找到 的 值 则 是 %anyehash 的 某 个 键 。 现 在 我 们 能 够 按 
“ 值 ”( 现 在 是 键 ) 来 找 “ 键 ”( 现 在 是 值 ) 了 。 


当然 敏锐 的 读者 可 能 猜 到 这 种 技巧 只 能 在 哈 希 值 不 重复 的 情况 下 才能 奏效 一 一 否则 就 
会 导致 重复 的 键 ， 而 这 对 于 哈 希 是 不 允许 的 。 对 于 这 个 问题 Perl 采 用 “后 发 先 至 ”的 原 
则 ， 用 列表 中 最 后 的 键 覆 盖 之 前 的 键 。 

当然 我 们 说 过 了 键 - 值 对 在 展开 哈 季 之 后 的 顺序 是 无 法 预知 的 ， 所 以 也 无 法 预知 哪个 键 才 


会 被 覆盖 。 这 个 技巧 最 好 是 在 确定 原始 哈 希 的 值 是 唯一 的 情况 下 使 用 ! 注 101 。 这 个 技巧 
其 实 非 常 适合 前 面 提 到 的 IP 地 址 和 主机 名 的 例子 ， 





%ip_address = TeveTse %host_name; 


这 样 一 来 ， 我 们 就 可 以 轻松 地 用 主机 名 或 IP 地 址 来 检索 相应 的 IP 地 址 或 主机 名 了 。 


注 10: ”或 是 当 你 不 介意 哈 希 键 重复 时 。 比 如 我 们 可 以 将 %family_name 哈 希 从 名 - 姓 表 反 转 成 为 姓 - 
名 表 ， 用 来 查看 菜 个 姓 是 否 存 在 。 如 果 反 转 后 的 哈 希 没有 sl1ate 键 ， 我 们 就 能 确定 原始 的 
哈 希 里 没有 是 这 个 姓 的 成 员 。 
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胖 箭 头 
在 将 列表 赋值 到 哈 希 时 常常 会 发 现 列表 中 的 键 - 值 对 并 不 容易 区 分 。 比 如 在 下 面 的 赋值 
中 ， 任 何人 都 要 逐个 扫描 列表 成 员 ， 同 时 默念 着 : 值 ， 键 、 值 …… ”， 然 后 才 搞 
清楚 2.5 其 实 是 一 个 键 ， 而 不 是 值 ， 

%some_hash = 人 〈'foo'，35， "bar'，12.4，2.5， "hello'， 

"Wilma ，1.72830， betty ， "bye\n ); 

如 果 Perl1 能 让 我 们 将 此 类 列表 中 的 键 与 值 成 对 组 合 ， 方 便 区 别 谁 是 谁 ， 岂 不 更 好 ? 
Larry 也 有 感 于 此 ， 因 此 他 发 明了 性 箭 头 (=>) [11 。 对 Perl 而 言 ， 它 只 是 逗号 的 另 
一 种 写法 ， 因 此 我 们 常常 称呼 它 为 胖 逗 号 。 也 就 是 说 ， 在 任何 需要 逗号 〈,) 的 地 方 都 
可 以 用 胖 箭 头 代替 ， 这 对 Perl 来 说 没什么 区 别 和 正品 。 所 以 产生 名 - 姓 哈 希 的 另 一 种 方 
式 是 : 

my %l1ast_name =( # 哈 希 也 可 以 是 词法 变量 

"fred” => flLlintstone '， 

“dino' =》 undef， 

"barney”=> "Tubble'， 

"betty” => "ITrubble'， 
这 样 组 合 的 姓 和 名 看 起 来 更 加 清晰 了 ， 蛙 怕 把 所 有 的 姓 和 名 都 写 在 一 行 里 面 也 可 以 读 
懂 。 请 注意 ， 列 表 结 尾 有 一 个 额外 的 逗号 ， 这 种 写法 不 但 无 伤 大 雅 ， 而 且 便 于 维护 。 当 
需要 加 入 更 多 人 的 信息 的 时 候 ， 只 要 确保 每 行 都 有 一 组 键 - 值 对 和 结尾 的 喜 号 就 行 了 。 
Perl 会 明白 每 个 键 - 值 对 之 间隔 着 逗号 ， 整 个 列表 以 一 个 额外 的 (无 伤 大 雅 的 ) 喜 号 结尾 。 


这 样 已 经 好 很 多 了 。Perl 总 是 会 竭尽 所 能 让 程序 员 使 用 简写 ， 这 里 就 有 一 个 ;使 用 胖 箭 、 
头 的 时 候 可 以 省 略 键 的 引号 ， 左 边 的 部 分 会 被 自动 引起 ， 


my %1Last_name =【 
fred ”=> "flintstone ， 
dino => undef， 
baxrney => “ITubble'， 
betty”′”=> “ITubble ， 

); ， 


当然 ， 也 不 是 所 有 情况 都 可 以 这 么 做 ， 因 为 哈 希 的 键 可 以 是 任意 形式 的 字符 串 ， 所 以 要 


注 11: 没 错 ， 还 有 一 个 站 箭 头 ->， 它 是 用 于 引用 《reference) 的 ， 可 以 参考 perlrepzat 或 者 Perirep 
文档 了 解 引 用 这 个 高 级 主题 。 

注 12: “下 ， 其 实 还 有 一 个 细微 的 盖 别 : 胖 箭 头 左 边 的 任何 裸 字 (一 连 串 的 字母 、 数 字 和 下 划 线 ， 
但 不 得 以 数字 开头 ) 都 会 自动 加 上 引号 ， 因 此 胖 箭 头 左 边 的 裸 字 不 需要 加 引号 。 另 外 ， 在 
作为 输 项 键 使 用 时 ， 如 果 花 括号 内 只 有 裸 字 时 ， 则 两 边 的 引号 也 可 以 省 略 。 
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是 某 个 键 的 内 容 看 起 来 像 是 Perl 的 操作 符 的 话 ， Per 就 无 法 适 从 了 。 比 如 下 面 放 在 胖 季 
头 左 边 的 + 是 加 法 操作 符 ， 不 是 用 引号 引起 的 字符 串 : 

my %1ast_name =【《 

+ = 'flintstone'， # 错 了 ! 编译 错误 ! 

); ， 5 

一 般 来 讲 ， 键 都 是 非常 简单 的 字符 串 ， 如 果 键 名 只 是 由 字母 、 数 字 和 下 划 线 组 成 
的 ， 并 且 不 是 以 数字 开头 ， 那 就 可 以 省 略 引 号 。 这 类 无 需 引号 的 字符 序列 ， 我 们 称 之 为 
裸 字 (bareword) ， 因 为 它 是 孤立 存在 的 。 


还 有 一 个 常见 的 允许 省 略 键 名 引号 的 地 方 是 : 在 花 括 号 中 检索 特定 键 名 的 元 素 。 比 如 原 
来 的 $scoref 'fred'} 可 以 直接 简写 为 $score{ffred}。 由 于 许多 哈 希 键 名 都 是 这 类 简单 的 
单词 ， 所 以 不 加 引号 的 写法 几乎 成 了 惯例 。 但 要 注意 ， 如 果 花 揪 号 内 不 是 裸 字 ，Perl 就 
会 将 其 当 作 表 达 式 先 求 值 ， 然 后 把 结果 当 作 键 名 。 比 如 ，Perl 会 认为 下 面 的 是 字符 串 连 
接 操 作 


$hash{ bar.foo } = 1; # 构成 键 名 “barfoo' 


哈 希 函 数 


很 自然 ，Perl 有 很 多 有 用 的 函数 可 以 一 次 处 理 整 个 哈 希 。 


keys 和 values 函 数 


keys 国 数 能 返回 哈 希 的 键 列表 ， 而 values 函 数 能 返回 对 应 的 值 列 表 。 如 果 哈 希 没有 任何 
成 员 ， 则 两 个 函数 都 返 同 空 列表 : 
my %hash =〈"a'” => 1，'b ”=>2， "CC' =>3); 

my @k = keys %hash; 

my @v = Values %hash; 
所 以 ，@k 会 包含 'a' 、'b' 和 'c'， 而 @v 则 会 包含 1、2 和 3。 当 然 顺序 会 有 所 不 同 ， 别 忘 了 
不 能 预测 Perl 存 储 哈 希 的 顺序 。 但 可 以 确定 的 是 ， 返 回 的 键 列 表 和 值 列 表 的 顺序 是 一 致 
的 : 如 果 'b "是 键 列表 的 最 后 一 个 元 素 ， 那 么 2 也 一 定 是 值 列 表 的 最 后 一 个 元 素 ， 如 果 'c" 
是 键 列表 的 第 一 个 元 素 ， 那 么 3 也 一 定 是 值 列 表 的 第 一 个 元 素 。 只 要 在 取得 键 与 取得 值 这 
两 个 动作 之 间 不 修改 哈 希 ， 顺 序 必然 一 致 。 但 如 果 新 增 某 个 元 素 的 话 ，Perl 就 可 能 根据 
需要 重新 优化 排列 顺序 ， 以 保持 后 续 高 速 访问 “11 。 在 标量 上 下 文中 ， 这 两 个 函数 都 


注 13: 当然， 如果 你 在 keys 和 Values 调 用 之 间 又 增加 了 新 的 哈 希 元 素 的 话 ， 那 么 返回 的 两 个 
列表 就 会 有 不 同 数量 的 元 素 ， 自 然 也 就 无 法 匹配 。 所 以 正常 情况 下 没 人 会 这 么 做 。 
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会 返回 哈 希 中 元 素 ( 键 - 值 对 ) 的 个 数 。 这 个 计算 过 程 不 必 对 整个 哈 希 进 行 遍历 ， 因 而 非常 
高 效 ， 


my $count = keys %hash;j # 得 到 3， 也 就 是 说 有 三 对 键 值 
偶尔 也 能 看 到 别人 的 程序 里 把 哈 希 当成 布尔 表达 式 来 判断 真 假 ， 比 如 ， 


if (%hash) { 
print “That was a true ValuelNn ; 


只 要 哈 希 中 至 少 有 一 个 键 - 值 对 ， 就 返回 真 [ 往 141 。 所 以 ， 这 样 写 的 意思 就 是 ; 假如 哈 
希 不 是 空 的 则 应 该 如 何如 何 。 不 过 ， 这 种 写法 并 不 多 见 。 


each 函 数 

如 果 需 要 迭代 ( 逐 项 处 理 其 中 的 每 一 个 元 素 ) 整 个 哈 希 ， 常 见 的 写法 就 是 用 each 函 数 ， 它 
以 包含 两 个 元 素 的 列表 的 形式 返回 键 - 值 对 [ 注 551 。 每 次 对 同一 个 哈 希 调用 此 函数 ， 它 
就 会 返回 下 一 组 键 - 值 对 ， 直 到 所 有 的 元 素 都 被 访问 过 。 在 没有 任何 新 的 键 - 值 对 ， 此 时 
each 会 返回 空 列 表 。 ， 


实际 使 用 时 ， 唯 一 适合 使 用 each 的 地 方 就 是 在 while 循 环 中 ， 如 下 所 示 : 


while ( (〈$key，4$value) = each %hash ) { 
pzint "$key => $valueNn "; 
】} 
这 里 有 很 多 技巧 。 首 先 ，each%hash 会 从 哈 希 中 返回 一 组 键 - 值 对 ， 结 果 是 含有 两 
个 元 素 的 列表 :如果 键 是 "c" 而 值 是 3， 则 列表 就 会 是 ("c" ,3)。 该 列表 会 被 赋值 给 
($key,$value)， 因 此 $key 会 成 为 "c"， 而 $value 则 变 成 3。 


但 这 里 的 列表 赋值 操作 是 在 while 循 环 的 条 件 表达 式 中 发 生 的 ， 也 就 是 在 标量 上 下 文中 
赋值 (说 得 再 具体 些 ， 最 终 在 while 内 部 的 是 布尔 上 下 文 ， 目 的 是 要 求 真 假 值 ， 而 布尔 上 
下 文 是 一 种 比较 特殊 的 标量 上 下 文 )。 冉 值 后 得 天 的 列表 在 标量 上 下 文中 的 求 值 结 果 为 列 
表 的 元 素数 量 ， 所 以 在 这 个 例子 中 ， 我 们 得 到 的 是 2。 因 为 ?是 真 值 ， 所 以 继续 运行 循环 
块 并 打印 c=>3。 





注 14: ”实际 结果 是 对 Per] 维 护 人 员 很 有 用 的 一 个 内 部 调试 用 的 字符 事 。 字 符 串 类 似 于 “4/16” 
这 样 的 形式 ， 如 果 输 希 不 是 空 的 ， 这 个 值 就 是 真 ; 车 是 空 哈 希 ， 则 返回 假 。 因 此 普通 用 

户 可 以 把 它 当 成 布尔 值 使 用 。 
注 15: 另 一 个 选 代 整个 哈 希 的 常见 方法 是 用 foreach 遍 历 哈 希 的 键 列表 ， 这 一 节 来 尾 能 看 到 这 种 
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下 一 次 循环 中 ，each%hash 会 返回 一 组 新 的 键 - 值 对 ， 假 设 这 次 是 ("a",1)。 之 所 以 能 返回 
下 一 个 键 - 值 对 ， 是 因为 哈 希 还 记 着 上 次 访问 的 位 置 ， 用 技术 行 话 来 说 就 是 每 个 哈 希 都 有 
一 个 选 代 器 (iterator) 进 16] 。 这 两 个 值 会 被 存 进 ($key,$value) 。 因 为 列表 的 元 素 个 数 
还 是 2， 亦 即 真 值 ， 所 以 继续 运行 循环 块 ， 输 出 a=>1。 


再 一 次 运行 循环 时 ， 我 们 已 经 知道 会 发 生 什 么 事 了 ， 所 以 看 到 输出 是 b=>2 时 不 会 意外 。 


我 们 知道 循环 不 可 能 一 直 运行 下 去 。 当 Perl 执 行 eachghash 却 已 经 没有 任何 键 - 值 对 时 ， 
each 会 返回 空 列 表 六 5] 。 空 列表 会 被 赋值 到 ($key,$value)， 因 此 $key 得 到 undef， 
$value 也 会 得 到 undef。 


但 因为 这 是 在 while 循 环 的 条 件 表达 式 中 运算 ， 所 以 刚才 的 赋值 都 不 重要 。 在 标量 上 下 
文中 ， 列 表 赋值 运算 的 值 是 源 列表 中 元 素 的 个 数 ， 在 此 情况 下 是 0。 因 为 0 这 个 值 为 假 ， 
所 以 while 循 环 就 结束 了 ， 会 继续 运行 程序 接 下 来 的 部 分 。 


当然 ，each 返 回 键 - 值 对 的 顺序 是 乱 的 。 但 它 与 keys 和 values 返 回 的 顺序 相同 ， 也 就 是 哈 
和 荐 的 自然 顺序 。 假 如 你 需要 依次 处 理 哈 希 ， 只 要 对 键 排序 就 行 了 。 方 法 如 下 所 示 : 

foreach $key (sort keys %hash) { 

$value = $hash{f$key}; 

print "$key =>》$valueNn ; 

# 或 者 ， 我 们 也 可 以 略 去 额外 的 $value 变量 

# ，print "$key =》$hash{f$keyj\n"; 

】 


我 们 将 会 在 第 十 四 章 看 到 更 多 有 关 哈 希 排序 的 内 容 。 


哈 希 的 典型 应 用 
讲 到 这 里 ， 不 妨 一 起 来 看 看 哈 希 的 实际 应 用 。 


Bedrock 图 书馆 使 用 了 一 个 Perl 程 序 ， 通 过 一 个 哈 希 来 记录 每 个 人 当前 借 走 几 本 书 ， 当 然 
除 此 之 外 还 有 其 他 相关 信息 : 


注 16: ”由 于 每 个 哈 希 有 自己 的 选 代 器 ， 因 此 处 理 不 同 哈 希 的 each 调 用 可 以 风 套 。 了 既然 大 家 已 经 习 
惯 了 本 书 的 脚注 风格 ， 我 们 不 妨 为 你 介绍 一 些 少 见 的 技巧 : 使 用 keys 或 者 values 函 数 可 以 
重 置 哈 希 的 选 代 器 。 另 外 用 新 列表 重 置 整个 哈 希 时 也 可 以 重 置 选 代 器 ， 或 者 each 调 用 遍历 
了 整个 哈 希 的 时 候 也 能 重 置 迁 代 器 。 然 而 在 选 代 哈 希 过 程 中 增加 疡 的 键 - 值 对 就 不 太 好 ， 
因为 这 不 会 重 置 选 代 器 ， 反 而 会 迷惑 开发 人 员 、 程 序 维护 员 ， 另 外 还 会 加 再 each。 


注 17， 因为 是 在 列表 上 下 文中 使 用 ， 所 以 它 不 能 返回 Undef 表 示 类 败 ， 那 会 成 为 拥有 一 个 元 素 的 
列表 (undef) 而 不 是 空 列表 ()。 
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$books{f 'fred' = 3j 
$books{f 'wilma' = 1; 


要 判断 某 项 哈 希 元 素 的 真 假 很 简单， 只 要 这 么 做 ， 


- if ($books{f$someonej) 1{ 
print“$someone has at least one .book checked out.An ; 


契 过 哈 希 里 有 些 元 素 并 不 为 真 : 


$books{f "barney"】 = 0; # 现在 没有 借阅 图 书 
$booksf"pebbles"} = undef; # 从 未 借阅 过 图 书 ， 这 是 张 新 办 的 借 书 证 


因为 Pebbles 不 曾 借 过 任何 书 ， 所 以 她 的 借 出 数量 是 undef， 而 不 是 0。 
每 个 有 借 书 证 的 人 在 哈 希 里 都 有 相应 的 键 。 对 于 每 个 键 (也 就 是 图 书馆 的 借阅 者 ) 来 


说 ， 它 都 有 相应 的 值 ， 这 个 值 若 不 是 借 出 图 书 的 数量 ， 就 是 undef 一 一 代表 着 一 个 从 未 使 
用 过 借 书 证 的 读者 。 


exists 函 数 
若 要 检查 哈 希 中 是 否 存在 某 个 键 (也 就 是 某 人 是 否 有 借 书 证 ) ， 可 以 使 用 exists 函 数 ， 
它 能 返回 真 或 假 ， 分 别 表示 键 存在 与 否 ， 和 键 对 应 的 值 无 关 ， 


if (exists 4booksf"dino"}) { 
print “Hey，there's 3a Library card for dinolNn"; 


也 就 是 说 ，eXxjists$booksf"dino"} 会 返回 真 ， 如 果 ( 且 仅 如 果 )dino 存 在 于 keys%books 返 
回 的 键 列表 中 的 话 。 


delete 函 数 
delete 国 数 能 从 哈 希 中 删除 指定 的 键 及 其 相对 应 的 值 。 假 如 没有 这 样 的 键 ， 它 就 会 直接 
结束 ， 而 不 会 出 现任 何 警告 或 错误 信息 。 

my $peTrson =“betty”; 

delete $books{$person}; # 撤销 $jperson 的 借 书证 
请 注意 ， 这 与 “将 undef 存 人 哈 希 元 素 ” 并 不 相同 。 在 这 两 种 情况 下 ， 
exists($booksf"betty"]}) 会 得 出 相反 的 结果 。 在 delete 之 后 ， 键 便 不 会 出 现在 哈 希 之 
中 ， 但 存 信 undef 后 ， 键 却 是 一 定 会 存在 的 。 


A\ 


在 这 个 例子 中 ，delete 与 存 人 undef 的 差异 ， 就 如 同 拿 走 Betty 的 借 书 证 与 给 她 一 张 没 用 
过 的 借 书 证 一 样 完全 不 同 。 


哈 希 元 素 内 择 
可 以 将 单一 哈 希 元 素 内 插 到 双 引 号 引起 的 字符 串 中 ， 就 和 你 想 要 的 一 样 
foreach 4$person (sort keys %books) { # 按 次 序 访问 每 位 借阅 者 


if 《$books{f$person}) { 
print "$person has $books{$personj items\nm";  # fred 借 了 3 本 书 


】 


但 这 种 方式 不 支持 内 播 整个 哈 希 ，"%books" 的 意思 只 是 包含 6 个 字符 的 字符 串 %books 二 !81 。 
到 这 里 为 止 ， 我 们 已 经 看 到 了 所 有 在 双 引 号 中 需要 反 和 斜 线 转 义 的 魔力 字符 ，$ 和 6， 因为 
它们 引入 一 个 Per]l 将 要 内 播 的 变量 ，"， 若 不 用 反 和 斜 线 转 义 ， 这 个 符号 就 会 结束 双 引 号 引 
起 的 字符 串 ;\， 代 表 反 斜 线 本 身 。 除 这 些 以 外 ， 双 引号 中 任何 字符 都 只 代表 他 们 自己 ， 
无 需 转 义 “9” 。 


%ENV 哈 希 


Perl 程 序 既 然 运行 在 某 个 环境 (environmenD 中 ， 就 需要 对 周围 的 环境 有 所 感知 。Perl 访 问 
这 些 信 息 的 方法 是 访问 %ENV 哈 希 。 比 如 ， 我 们 常常 需要 从 %ENV 中 读 取 PATH 键 的 值 ; 


prjint "PATH is $ENV{PATH}Nn”; 
根据 你 所 使 用 的 操作 系统 和 设 定 ， 大 致 会 看 到 类 似 下 面 这 样 的 输出 ， 
PATH is /usr/1ocal/Vbin:/Vusr/bin:/sbin:/Vusr/sbin 


一 般 这 些 环境 变量 都 早已 自动 设置 好 ， 但 你 也 可 以 添加 自己 的 环境 变量 。 不 同 的 操作 系 
统 和 shell 有 不 同 的 设 定 方法 : 





注 18: “ 它 实 在 没 法 代表 任何 有 意义 的 东西 ， 如 果 想 用 它 输 出 哈 希 里 所 有 键 - 值 对 ， 那 么 这 扒 信息 
实际 上 也 没 太 大 用 处 。 并 且 ， 我 们 在 第 五 章 中 看 到 过 ， 百 分 比 号 经 常会 出 现在 printf 的 
格式 字符 事 里 ， 如 果 再 赋予 它 其 他 郊 义 ， 准 会 变 得 一 团 糟 。 

注 19: ”但 在 双 引 号 引起 的 字符 事 中 小 心 变 量 名 之 后 的 编写 符号 (') 、 左 方 括号 〈[) 、 左 花 括号 
({1) 、 瘦 箭头 (->) 和 双 冒 号 (::) ， 因 为 它们 可 能 会 带 来 与 你 本 总 相悖 的 效果 。 
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了 ourne SpeJ 


$ CHARACTER=Fred; exXpozrt CHARACTER 
$ export CHARACTER=Fred 


CS 

和 % SetenV CHARACTER Fred 
DOS 或 者 Windows 偷 令 

:> Set CHARACTER=Fred 


只 要 在 程序 外 设 定 任意 环境 变量 ， 在 Per 里 面 就 可 以 这 样 访 问 ， 


print “CHARACTER is $ENV{CHARACTERj}\n"; 


习题 

以 下 习题 答案 参见 第 316 页 上 的 “第 六 章 习题 解答 ”一 节 ; 

1 [7] 编 程 读 入 用 户 指定 的 名 字 并 且 汇报 相应 的 姓 。 拿 熟人 的 姓 和 名 测试 ， 如 果 你 太 
专注 于 计算 机 以 至 于 一 个 人 也 不 认识 的 话 ， 也 可 以 使 用 下 面 这 个 列表 ; 
表 6-1， 数据 样本 
fred flintstone 


barney Tubbje 






WIlLma flLintstone 


2.， [15] 编 程 读 取 一 系列 单词 ， 每 行 一 个 让 201 ， 直 到 文件 中 止 ， 然 后 打印 一 份 列 出 每 
个 单词 出 现 次 数 的 列表 。 提示: 别 忘 了 ， 把 未 定义 值 当 成 数字 使 用 时 ，Perl 会 自 
动 将 它 转换 成 0。 回 头 去 看 看 前 面 计 算 总 和 的 习题 ， 可 能 会 有 所 帮助 。) 这 样 ， 如 
果 输 入 单词 为 fred、barney、fred、dino、wilma、fTred， 每 个 词 一 行 ， 输 出 应 该 
告诉 我 们 fred 出 现 了 3 次 。 附 加 题 : 根据 ASCI 编 码 排 序 输出 报表 。 


3 [15] 纺 程 输 出 %ENV 哈 希 中 所 有 的 键 - 值 对 ， 输 出 按照 ASCII 编 码 排序 ， 分 两 列 打印 。 
附加 题 ; 设法 让 打印 结果 纵向 对 齐 。 注 意 length 函 数 可 以 帮助 确定 第 一 列 的 宽度 。 
测试 完毕 后 加 入 更 多 新 环境 变量 再 次 验证 程序 的 输出 正确 无 误 。 


注 20: ， 必须 每 个 单词 分 行 输入 ， 因 为 我 们 暂时 还 没有 介绍 如 何 对 一 行 输入 进行 分 词 处 理 。 








哈 希 | 129 


第 七 章 


漫游 正则 表达 式 王国 


PerlI 有 众多 区 别 于 其 他 语言 的 特色 。 在 这 些 特色 中 最 重要 的 就 是 对 正则 表达 式 的 强力 支 
持 。 这 些 支 持 提供 了 快速 、 灵 活 、 可 靠 的 字符 串 处 理 能 力 。 


不 过 ， 这 个 能 力 是 有 代价 的 。 正 则 表达 式 其 实 是 Perl 内 嵌 的 、 自 成 一 体 的 微型 编程 语 
言 。 没 错 ， 你 正在 学 习 另 一 门 语言 毕 !11 ! 好 在 这 个 语言 并 不 难 。 在 这 一 章 ， 你 将 会 进 
入 正则 表达 式 的 王国 ， 暂 时 忘掉 Perl 世 界 也 没关系 。 在 下 一 章 我 们 会 告诉 你 ， 这 个 王国 
是 如 何 融入 Perl 世 界 的 。 


正则 表达 式 并 不 只 是 Per 的 一 部 分 ， 它 也 出 现在 sed、awk、Pprocmail 与 8rep 中 ， 了 以 及 大 多 
数 程序 员 文 本 编辑 器 〈 比 如 vi 和 lemacs) 中 ， 甚 至 是 更 奇怪 的 地 方 。 好 消息 是 ， 如 果 你 用 
过 上 述 某 些 工 具 ， 那 么 已 经 赢 在 起 点 了 。 再 仔细 看 看 ， 你 会 发 现 更 多 使 用 或 支持 正则 表 
达 式 的 工具 ， 像 Web 上 的 搜索 引 苟 《通常 就 是 用 Perl 写 成 的 ) 、 电 子 邮 件 客户 端 等 等 。 
坏 消 息 是 各 家 正则 表达 式 的 语法 不 尽 相同 ， 在 学 习 过 程 中 ， 可 能 还 得 习惯 时 不 时 出 现 的 
反 和 斜 线 。 


三 | 、 = 
什么 是 正则 表达 式 ? 
正则 表达 式 (regular expression) ， 在 Perl 里 面 通常 也 叫做 模式 (patter) ， 是 用 来 表 
示 匹 配 (或 不 匹配 ) 某 个 字符 串 的 特征 模板 [四 3 。 也 就 是 说 ， 虽 然 有 无 限 多 可 能 的 文 
注 1: 可 能 会 有 人 说 正则 表达 式 不 是 完整 的 编程 语言 。 我 们 懒得 辩解 ， 不 管 怎么 说 ，Per1 确 实 
有 在 正则 表达 式 内 坎 入 额外 Perl 代码 的 能 力 。 
注 2: 爱 较 真 的 人 会 要 求 更 严 议 的 定义 。 可 是 即使 给 出 定义 ， 他 们 也 会 说 Perl 的 模式 不 算 真 正 
的 正则 表达 式 。 你 如 果 想 认真 学 习 正 则 表达 式 ， 我 们 推荐 Jeffrey Friedl 写 的 《Mastering 
Regular Expressions》 (GO"Reilly 出 版 ) 一 书 。 
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本 字符 串 存 在 ， 但 只 要 用 一 个 模式 就 可 以 将 它们 干净 利落 地 分 成 两 组 : 匹配 的 和 不 匹配 
的 。 模 式 绝对 没有 仁慈 、 写 意 之 类 的 性 格 ， 它 要 么 匹配 ， 要 么 就 不 匹配 。 


模式 可 能 只 匹配 一 个 给 定 的 字符 ， 或 者 两 个 、 三 个 、 十 个 、 上 百 个 ， 甚 至 无 数 个 字符 。 
当然 ， 模 式 也 可 以 匹配 所 有 除了 给 定 的 一 个 、 多 个 或 无 限 多 个 字符 以 外 的 内 容 [ 考 ?] 。 
前 面 说 了 ， 正 则 表达 式 是 一 种 小 程序 ， 它 拥有 自己 的 简单 编程 语言 。 其 实 这 个 程序 的 任 
务 很 简单 ， 查看 一 个 字符 串 ， 然 后 判定 它 “ 匹 配 ”或 “不 匹配 ” [ 往 4 。 这 就 是 它 所 做 
的 全 部 工作 。 


另外 一 个 用 到 正则 表达 式 的 地 方 就 是 Unix 的 grep 命 令 ， 它 会 检查 哪儿 行文 本 匹配 指定 的 
模式 ， 然 后 输出 那 几 行 。 比 如 ， 想 看 看 某 个 文件 在 哪 一 行 提 到 过 flint， 并 且 同 一 行内 还 
跟着 stone， 可 以 用 下 面 这 条 8rep 命 令 : 

$ gzrep “flint.+*stone” chapter# .txt 

chapter3.txt:a piece of flint，a stone which may be used to start a fire by striking 


chapter3 .txt:found obsidian，flint，8granite，and smal1 stones of basaltic Tock，which 
chapter9.txt:a flintlock zifle in poor condition。 The sandstone mantle held several 


“不 要 把 正则 表达 式 和 shell 的 “文件 名 匹配 模式 ” (又 称 为 g1o8， 文 件 名 通 配 ) 混 为 一 
谈 。 在 Unix shell 中 键入 *.pm 来 匹配 所 有 以 .pm 结尾 的 文件 就 是 典型 的 文件 名 通 配 。 上 面 
的 例子 使 用 了 chapter*,txt 这 样 的 文件 名 通 配 (你 也 许 已 经 注意 到 了 ， 必 须 用 单 引号 将 正 
则 表达 式 括 起 来 ， 不 然 会 被 shel] 当 成 文件 名 通 配 ) 。 文 件 名 通 配 使 用 了 许多 与 正则 表达 
式 相同 的 字符 ， 但 这 些 字符 在 使 用 方式 上 完全 不 同 [ 圭 5 。 我 们 会 在 第 十 三 章 进一步 介 
绍 文件 名 通 配 ， 但 现在 暂且 放 一 下 


使 用 简单 模式 
若 模式 匹配 的 对 象 是 $ 的 内 容 ， 只 要 把 模式 写 在 一 对 斜 线 (/) 中 就 可 以 了 。 而 模式 本 身 
就 是 一 串 简 单 的 字符 序列 : 


$_ =“yabba dabba doo"; 
评 (/abbaVy) { 


注 3; 当然 也 有 总 是 匹配 或 者 永远 都 不 匹配 的 模式 。 在 极 少 数 情 况 下 ， 这 种 模式 也 可 能 是 有 用 
处 的 ， 但 一 般 米 说 部 属于 使 用 不 当 。 

注 4: 除了 匹配 与 否 的 结果 之 外 ， 程 序 还 可 以 取得 其 他 匹配 信息 ， 其 中 一 种 就 是 “正则 表达 式 
捕获 ”， 稍 后 我 们 会 在 第 八 章 提 到 。 

注 5: 文件 名 通 配 有 时 也 被 叫做 “模式 (pattern)”。 不 过 更 糟 的 是 ， 菜 些 差劲 的 Unix 入 门 书 〈 可 
能 恰好 也 是 门外汉 写 的 ) 也 称 它 为 正则 表达 式 ， 其 实 它 们 绝对 不 是 。 这 种 说 法 只 会 让 许 
多 Unix 初 学 者 感到 迷惑 。 
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print "Tt matchedl\n"; 


表达 式 /abbay/ 会 在 $_ 中 寻找 这 4 个 字符 组 成 的 字符 串 ， 如 果 找 到 就 返回 真 。 这 里 会 找到 不 
止 一 个 字符 串 ， 但 这 并 不 是 关键 。 只 要 曾经 找到 过 ， 匹 配 结果 就 为 真 ， 否 则 为 假 。 


“由 于 模式 匹配 通常 用 来 返回 真 或 假 值 ， 所 以 往往 会 用 在 if 或 while 的 条 件 表达 式 里 。 其 他 
更 多 理由 留 到 第 八 章 再 说 。 


所 有 在 双 引 号 引起 的 字符 串 中 能 使 用 的 技巧 (尤其 是 反 斜 线 转 义 ) 都 可 以 在 模式 串 里 使 
用 。 因 此 ，/cake\tsprite/ 这 个 模式 会 匹配 coke、 一 个 制 表 符 和 sprite 这 11 个 字符 。 


Unicode 属 性 
Unicode 字 符 能 够 理解 自身 含义 ， 它 们 不 只 是 简单 的 字 节 序列 。 每 个 字符 除了 字 节 组 合 
之 外 ， 还 附带 着 属性 信息 。 所 以 除了 匹配 字符 本 身 以 外 ， 我 们 还 能 根据 字符 的 属性 来 达 
成 匹配 。 ， 
每 个 属性 都 有 一 个 名 字 ， 完 整 的 清单 列 在 perluniprops 文 档 中 。 车 要 匹配 某 项 属性 ， 只 需 
要 把 属性 名 放 入 \p{PROPERTY} 里 面 。 比 如 ， 有 许多 字符 属于 空白 符 (whitespace) ， 相 
应 的 属性 名 为 Space， 所 以 要 匹配 带 有 这 类 属性 的 字符 ， 可 以 用 \p{Space} 表 示 ; 

评 (/\pfspacej/) { # 总 共有 26 个 不 同 的 字符 带 此 属性 


print "The String has Some Whitespace.Nn ; 
如 果 要 匹配 数字 ， 可 以 用 Dig 让 属性 : 
if (人 pfDigit}/) { # 总 共有 411 个 不 同 的 数字 字符 


pxrint “The string has a digit.\n”; 


上 面 这 两 个 属性 所 涵盖 的 字符 集合 都 要 比 以 往 见 过 的 多 得 多 。 但 也 有 反而 更 为 精简 的 集 
合 ， 比 如 匹配 十 六 进 制 数字 的 字符 集合 [o-9A-Fa-f]， 可 用 下 面 的 属性 找 出 连续 两 个 这 
样 的 字符 ; 


if 《/\p{Hexj\p{fHexj/) 
print "The string has a pair of hex digits.Nn"; 


我 们 还 能 匹配 不 包含 特定 属性 的 字符 ， 只 要 把 小 写 的 p 改 成 大 写 ， 就 表示 否定 意义 ， 匹 
配 指定 属性 以 外 的 字符 ; 


if (人 pfspace}/) { # 只 要 不 是 空白 符 都 能 匹配 (自然 不 计 其 数 ! ) 


print "The string has one or more non-whitespace characters.\n"; 
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关于 元 字符 
当然 ， 如 果 模 式 只 能 匹配 简单 的 直接 量 字符 串 ， 那 实际 也 没 太 大 用 处 。 所 以 我 们 引入 了 
特殊 字符 ， 称 为 元 字符 . (metacparacter) ， 它 们 在 正则 表达 式 中 有 着 特殊 含义 。 


”例如 ， 点 号 〈.) 是 能 匹配 任意 一 个 字符 的 通配符 ， 当 然 换行 符 (也 就 是 "\n") 要 除外 。 
因此 ，betty 将 会 被 /bet.y/ 这 个 模式 匹配 ,而 betsy、bet=y、bet.y， 或 是 任何 前 三 个 字 
符 为 bet、 中 间接 任何 一 个 字符 (换行 符 除 外 ) 、 后 面 为 y 的 字符 串 ， 也 都 会 被 /bet.y/ 匹 
配 。 但 是 ， 像 bety 或 betsey 就 不 匹配 了 ， 因 为 在 t 与 y 之 间 没 有 或 超过 ) 一 个 字符 。 点 
号 只 能 用 来 匹配 一 个 字符 。 


因此 ， 如 果 你 想 要 匹配 字符 串 中 的 名 号， 虽然 用 点 号 也 能 匹配 到 ， 但 这 样 会 额外 匹配 到 
不 相干 的 字符 (不 包括 换行 符 ) 。 要 是 希望 点 号 仅仅 匹配 句号 本 身 ， 只 需 在 前 面 加 上 反 
斜 线 转 义 就 好 了 。 此 规则 也 适用 于 任何 Perl 正 则 表达 式 里 用 到 的 元 字符 , 在 任何 元 字符 
前 面 加 上 反 斜 线 ， 就 会 使 它 失去 元 字符 的 特殊 作用 。 比 如 ，/3\.14159/ 这 个 模式 里 的 点 
号 就 不 是 表示 通 配 的 元 字符 。 


因此 ， 反 和 斜 线 是 我 们 的 第 二 个 元 字符 。 若 要 匹配 真正 的 反 斜 线 ， 请 用 两 个 反 斜 线 表示 ， 
这 个 规则 也 适用 于 Perl 的 其 他 地 方 : 
$_ = "aiteal \\ backslash' ; 


if ( 八 V) { 
print "It matchediN\n”; 


简单 的 量词 

我 们 常常 需要 在 某 个 模式 中 重复 某 些 东西 。 而 星 号 〈*) 正 是 用 来 匹配 前 面 的 条 目 零 次 或 
多 次 的 。 因 此 /fred\t*barney/ 能 匹配 fred 和 barney 之 间 任 意 数量 的 制 表 符 。 也 就 是 说 ， 
这 个 模式 能 匹配 出 现 单个 制 表 符 的 情况 ， "fred\tbarney"， 或 者 两 个 制 表 符 的 情况 ， 
"fredt\tbarney"， 或 者 三 个 制 表 符 的 情况 : "fredt\vt\tbarney"”， 甚 至 一 个 制 表 符 都 
没有 的 情况 : "fredbarney"。 因 为 星 号 表示 匹配 零 次 或 多 次 ， 所 以 字符 之 间 可 以 有 数 百 
个 制 表 符 ， 但 除了 制 表 符 之 外 ， 不 能 出 现 其 他 字符 。 把 星 号 想 成 “前 面 的 东西 可 以 重复 
出 现任 意 多 次 ， 也 可 以 是 零 次 ”可 能 会 比较 容易 理解 。 因 为 星 号 是 乘法 (times) 操 作 符 ， 
而 英语 里 “times” 也 有 “次 数 ”的 意思 “6 。 


如 果 除了 制 表 符 外 还 想 匹配 其 他 字符 ， 该 怎么 做 昵 ? 答案 是 使 用 点 号 。 它 会 匹配 任意 字 





注 6; 在 正则 表达 式 的 数学 计算 中 ， 这 称 为 克 林 星 (Kleene star) 。 
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符 进 ?! ， 因 此 .* 会 匹配 任意 字符 零 次 到 无 限 多 次 。 也 就 是 说 ， 不 管 fred 与 barney 之 间 夹 
着 什么 东西 ， 都 会 匹配 模式 /freb.*barney/。 任 何 一 行 中 只 要 提 到 了 fred， 并 且 在 其 后 
提 到 bazney， 就 会 匹配 此 模式 。 我 们 经 常 戏称 .+ 为 “ 捡 破烂 (any old junk) ”模式 ， 因 
为 它 能 匹配 字符 串 中 的 随便 什么 东西 。 | 


星 号 应 该 说 是 一 种 量词 (gxantFier) ， 意 思 是 它 指定 了 前 一 个 条 上 且 的 数量 。 但 它 不 是 唯 
一 的 量词 ， 加 号 (+) 也 是 量词 。 加 号 会 匹配 前 一 个 条 目 一 次 以 上 : /fred+barney/ 会 匹 
配 在 fred 与 barney 之 间 用 空格 隔 开 而 且 只 用 空格 隔 开 的 字符 串 (空格 不 是 元 字符 ) 。 它 
不 会 匹配 fredbarney， 因 为 加 号 表示 在 两 个 名 称 之 闻 必 须 有 一 个 以 上 的 空格 。 把 加 号 想 
成 “ 算 上 刚才 出 现 的 ， 再 加 上 (当然 不 加 也 可 以 ) 任意 次 重复 ”或 许 会 比较 容易 理解 。 


第 三 个 量词 与 星 号 及 加 号 类 似 ， 但 限制 更 为 严格 ， 它 就 是 问号 (?) ， 表 示 前 一 个 条 目 是 
可 有 可 无 的 。 也 就 是 说 ， 它 的 前 一 个 条 目 可 以 出 现 一 次 或 者 不 出 现 。 和 另外 两 个 量词 相同 
的 是 ， 问 号 也 指定 了 前 一 个 条 目 出 现 的 次 数 。 不 过 在 使 用 问号 的 情况 下 ， 它 只 会 出 现 一 次 
(如 果 有 匹配 的 条 目 ) 或 不 出 现 〈 如 果 没 有 匹配 的 条 目 ) ， 除 此 之 外 没有 任何 其 他 可 能 
性 。 所 以 ，/bamm-?bamm/ 能 且 只 能 匹配 下 面 这 两 种 情况 ， bamm-bamm 或 bammbamm。 这 很 容 
易 记 ， 可 理解 为 ， “前 面 那 一 个 啊 ， 有 吧 ? 没有 吧 ? ” 


因为 这 三 个 量词 指定 了 前 一 个 条 目 重复 出 现 的 次 数 ， 所 以 它们 都 必须 接 在 某 个 东西 之 
后 。 


模式 分 组 ， 
在 正则 表达 式 中 ， 圆 括号 〈( )， 或 称 小 括号 ) 的 作用 是 对 字符 串 分 组 。 因 此 ， 圆 括号 也 
是 元 字符 。 举 例 来 说 ， 模 式 /fred+/ 会 匹配 像 freddddddddd 这 样 的 字符 串 ， 可 是 这 样 的 字 
符 串 实际 上 不 常 出 现 。 不 过 ， 模 式 /(fred)+/ 会 匹配 像 fredfredfred 这 样 的 字符 串 ， 这 
可 能 才 是 你 想 要 的 。 那 么 ， 模 式 /(fred)*/ 又 如 何 呢 ? 它 会 匹配 像 hel1o,wor1d 这 样 的 字 
符 串 [ 注 8] 


圆 括号 同时 也 使 得 重新 使 用 某 些 字符 串 成 为 可 能 。 我 们 可 以 用 反 向 引用 (pacK 
reference) 来 引用 圆 括号 中 的 模式 所 匹配 的 文字 ， 这 个 行为 我 们 称 为 捕获 组 (capture 


注 7: 除了 换行 符 。 接 下 求 不 会 一 直 提醒 这 件 事 ， 因 为 你 已 经 知道 。 反 正字 符 事 里 不 太 会 出 现 

接 行 符 ， 所 以 一 般 没 什么 影响 。 但 别 忘 了 这 个 细节 ， 因 为 总 有 一 天 ， 某 个 换行 符 会 溜 进 
你 的 字符 事 里 ，. 吃 过 气 后 你 一 定 会 记 住 ， 点 号 不 能 匹配 换行 符 。 

注 8 : 星 号 代表 要 匹配 重复 出 现 堆 次 以 上 的 fred。 在 能 接受 零 次 的 情况 下 ， 要 使 匹配 失败 是 很 
难 的 ! 任何 字符 串 痢 匹配 该 模式 ， 即 使 是 空 字符 事 也 一 样 。 
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group) [和 9] ， 反 向 引用 的 写法 是 在 反 钳 线 后 面 楼 上 数字 编号 ， 比 如 \1. \2 这 样 。 相 应 
的 数字 表示 对 应 顺序 的 捕获 组 。 


还 记得 么 ? 使 用 圆 括号 包围 的 点 号 可 以 匹配 任意 非 换 行 字符 。 我 们 可 以 用 反 向 引用 来 
再 次 匹配 刚刚 在 圆 括号 中 匹配 的 任意 字符 : 
$_ = "abba"; 


if〈/(. )\1/) { ## 匹配 “bb 
print "It matched same charactet next to jitselfl\n” ; 


(.)\1 表 明 需 要 匹配 连续 出 现 的 两 个 同样 的 字符 。(. ) 首 先 会 瑟瑟 a， 但 是 在 查看 反 向 引用 
的 时 候 就 会 发 现下 一 个 字符 不 是 a， 导 致 匹配 失败 。Per] 会 跳 过 这 个 字符 ， 用 (.) 来 匹配 
下 一 个 字符 b， 在 查看 反 向 引用 的 时 候 会 发 现下 一 个 字符 也 是 b， 这 样 就 达成 了 成 功 的 匹 
配 。 | 


反 向 引用 不 必 紧 接 在 对 应 的 捕获 组 括号 后 面 。 下 面 的 模式 会 匹配 y 后 面 的 4 个 连续 的 非 换 
行 符 ， 并 用 \1 反 向 引用 表示 匹配 d 后 也 出 现 这 4 个 字符 的 情况 ; 
$_ = "yabba dabba doo"; 


if (/y(,.) di/) { 
pTint “It matched the same after y and dlNn” ; 
】 


也 可 以 用 多 个 括号 来 分 成 多 组 ， 每 组 都 可 以 有 自己 的 反 向 引用 。 我 们 可 以 用 括号 定义 一 
个 非 换行 字符 的 捕获 组 ， 后 面 跟着 一 个 非 换 行 字符 的 捕获 组 。 然 后 用 反 向 引用 \2 和 \1 来 
构成 有 趣 的 回 文 模式 ， 比 如 abba: 

$_ = "yabba dabba doo”; 


if (y(. )(.)\zM1/) { # 匹配 .abba' 
print “It matched after the yINn ; 


讲 到 这 里 经 常 有 人 会 问 ， 该 如 何 区 分 哪个 括号 是 第 几 组 ? 幸运 的 是 Larry 是 用 合乎 常理 的 
方式 来 给 它们 编导 的 ， 只 要 依次 点 算 左 括号 【包括 嵌 套 括号 ) 的 序号 就 可 以 了 ， 
$_ = “yabba dabba doo ”; 


if (/y((.)(.)N\3\2) dNA17) { 
print “It matchediNn” ; 





注 9: 在 早期 文档 或 者 本 书 旧版 中 ， 休 会 看 到 诸如 “记忆 (memory) ”或 者 “捕获 缓存 
(capture buffer) ”之 类 的 说 法 ， 但 官方 正式 的 讲法 是 “捕获 组 (capture group) ” 
后 我 们 还 会 看 到 如 何 构造 非 搬 获 组 (noncapturing group) 。 
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有 时 可 能 得 拆 开 来 写 ， 才 能 看 清楚 这 个 模式 中 各 个 部 分 的 结构 〈 当 然 ， 这 种 写法 的 格式 
不 正确 0 ) : 


人 # 第 一 个 左 括号 
(.) # 第 二 个 左 括号 
(.) # 第 三 个 左 括号 
\3 
\2 

) 


从 Perl 5.10 开 始 支持 一 种 新 的 反 向 引用 写法 。 不 再 只 是 简单 的 用 反 斜 线 和 组 号 ， 而 是 用 \ 
g{N} 这 种 形式 。 其 中 N 是 想 要 反 向 引用 的 组 号 。 在 刚才 的 例子 中 使 用 这 种 新 写法 会 更 加 清 
晰 。 


想 想 看 ， 如 果 反 向 引用 后 面 跟着 的 模式 的 一 部 分 是 数字 该 怎么 办 。 在 下 面 的 例子 中 ， 我 
们 要 用 \1 来 重复 刚刚 在 圆 括号 中 匹配 的 字符 ， 然 后 紧 接着 的 必须 是 字符 串 直 接 量 11; 
$ = "aal11bb"; 


讨 (/(.)NA141/) { 
print “It matchedlN\n"; 
】} 


Perl 必 须 猜 测 我 们 的 意图 ， 这 里 到 底 是 \1、\11 还 是 \111 呢 ? 在 这 个 问题 上 Perl 的 届 辑 
”很 简单 ， 它 会 尽 可 能 创建 最 多 数量 的 反 向 引用 ， 所 以 最 终 Perl 认 为 这 里 应 该 是 \111 ( 译 
注 , 其 实 这 是 很 自然 的 事情 ， 也 是 必然 的 选择 。 如 果 规 则 是 尽 可 能 少 ， 那 么 最 多 只 能 支 
持 1 到 9 个 反 向 应 用 ， 显 然 这 很 荒 雇 。 所 以 不 管 如 何 ，Perl 尽 可 能 往 多 的 原则 靠 。 至 于 避 
免 靶 义 ， 那 应 该 是 程序 员 的 责任 。) 。 但 因为 没有 第 111 (或 11) 组 括号 存在 ， 所 以 Perl 
在 编译 阶段 就 会 报错 。 


而 通过 使 用 \g{1}， 就 能 消除 反 向 引用 与 模式 的 直接 量 部 分 的 二 义 性 坟 11 ， 
USe 5.010j 
各 = "aallbb"; 


计 (/(.)\gf1j141/) { 
print “It matchedlN\n ; 
】} 


用 \g{N} 的 写法 的 额外 好 处 是 ， 我 们 甚至 可 以 用 负数 。 相 比 指定 捕获 组 的 绝对 编号 ， 相 
尘 反 向 引用 (relatiye back reference) 会 更 加 有 趣 。 这 样 我 们 可 以 用 -1 来 做 同样 的 事 : 


注 10: “当然 其 实 你 可 以 用 /x 修 饰 符 来 展开 复杂 的 正则 表达 式 ， 到 第 八 章 我 们 再 具体 说 明 怎 么 
做 。 

注 11:; 通常 我 们 会 用 \g{f1} 的 更 精简 形 式 \81 表 示 。 但 此 处 我 们 还 是 建议 写 上 花 括 号 。 为 避免 轩 
惑 ， 我 们 建议 不 管 何 时 都 统一 使 用 这 种 完整 的 写法 ， 除 非 你 已 经 非常 融 悉 自如 。 
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Use 5.010; 
$_ = "aal11bb”; 


计 (/(.)N\g{-1j14/) { 
print “It matchedlAn ; 


这 样 若 要 在 模式 中 加 入 更 多 的 内 容 ， 就 不 必 总 是 修改 反 向 引用 的 编号 了 。 因 为 要 加 入 另 
外 一 个 捕获 组 ， 就 会 导致 所 有 绝对 编号 的 反 向 引用 失效 ， 而 相对 反 向 引用 则 不 会 ， 因 为 
它 使 用 的 是 相对 于 自己 的 位 置 ， 而 不 是 绝对 编号 ， 所 以 维护 起 来 很 轻松: 

Use 5.010; 

$_ =“"Xxaall1bb"; 


证 (/(.)(,)Ng{-1]147)》{ 
print “Tt matchedlNn"; 
} | 


择 一 匹配 
坚 线 (| ) 通常 可 以 读 成 “或 ”， 意 思 是 要 么 匹配 左边 的 内 容 ， 要 么 匹配 右边 的 


内 容 。 也 就 是 说 如 果 左 边 的 模式 匹配 失败 了 ， 还 可 以 用 右边 的 再 试 试 。 因 此 / 


fred|barney|betty/ 能 匹配 任何 含有 fred 或 者 barney 或 者 betty 的 字符 串 。 


现在 可 以 使 用 /fred(|\t)+barney/ 这 样 的 模式 来 匹配 fred 和 bazney 之 间 出 现 一 次 以 上 空 
格 、 制 表 符 或 两 者 混合 的 字符 串 。 加 号 表示 重复 一 次 或 更 多 。 每 次 只 要 有 重复 ，(|\t) 
就 可 能 匹配 空格 或 制 表 符 [ 往 13] 。 在 这 两 个 名 字 之 间 至 少 要 有 一 个 空格 或 制 表 符 。 


若 要 求 fred 与 barney 之 间 的 字符 必须 都 一 样 ， 你 可 以 把 上 述 模式 改 成 /fred(+|\t+) 
barney/。 如 此 一 来 ， 中 间 的 分 隔 符 就 一 定 得 全 是 空格 或 全 是 制 表 符 。. 

模式 /fred(and|or)baxzney/ 可 用 来 匹配 任何 含有 fredandbarney 或 fredorbarney 的 字符 
串 往 3) 。 我 们 还 可 以 用 /fredandbarney|fredorbarney/ 这 样 的 模式 来 匹配 这 两 个 字符 


串 ， 但 这 样 太 长 了 ， 执 行 效率 也 会 降低 ， 有 具体 结果 取决 于 正则 表达 式 引擎 内 建 的 优化 策 
略 。 


字符 集 


字符 集 (chnaracter class) ， 指 的 是 一 组 可 能 出 现 的 字符 ， 通 过 写 在 方 括号 〈([]) 内 表 





注 12: “这 类 匹配 如 果 改 用 字符 集 的 形式 来 做 的 话 ， 一 般 效 率 更 高 ， 本 章 梢 后 会 有 说 明 。 


注 13: ”请 注意 ， 在 正则 表达 式 里 and 与 oY 这 两 个 词 并 不 是 操作 待 | 因为 它们 是 字符 事 的 一 部 分 ， 
所 以 在 这 里 用 等 宽 字 来 表示 。 
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示 。 它 只 匹配 单个 字符 ， 但 可 以 是 字符 集中 列 出 的 任何 一 个 。 


比如 字符 集 [abcwxyz]， 它 可 以 匹配 这 ?7 个 字符 中 的 任意 一 个 。 为 方便 起 见 ， 你 可 以 用 连 
宇 符 《-) 表示 始 示 范围， 这样 之 前 的 字符 集 也 可 以 改写 成 [acw-z]。 当 然 ， 这 个 例子 并 
不 会 节约 多 少 打字 时 间 ， 但 建立 像 [a-zA-Z] 这 样 的 经 典 字符 集 就 非常 方便 了 ， 它 可 以 匹 
配 52 个 大 小 写字 母 中 的 任何 一 个 。 这 52 个 字母 并 不 包括 和、E、%、 了 1 之 类 的 字符 ， 这 些 
都 是 另外 的 字母 字符 ， 稍 后 我 们 会 介绍 如 何 匹配 他 们 。 


定义 字符 集 时 可 以 使 用 字符 简写 ， 类 似 双 引 号 内 的 转 义 序列 ， 因 此 字符 集合 [\o00- 
ee 当然 ， 字 符 集 只 是 完整 模式 的 一 部 
分 ， 在 Perl 中 它 从 来 不 会 单独 出 现 。 比 如 ， 你 可 能 会 见 到 下 面 这 样 的 代码 : 

$_=“The HAL-9000 Tequires authoxization to contjinue。; 


计 CRAL- [0- -9]+/) { 
print “The string mentions Some model of HAL computer An” ; 


有 时 候 ， 指 定 字符 集 范围 以 外 的 字符 会 比 指定 字符 集 内 的 字符 更 容易 。 可 以 在 字符 集 开 
头 的 地 方 加 上 脱 字符 (caret^) 来 表示 这 些 字符 除外 。 也 就 是 说 ，[^def] 会 匹配 这 三 个 字 
符 以 外 的 任何 字符 ， 而 [^n\-z] 则 会 匹配 n、 连 字符 与 z 以 外 的 任何 字符 (请 注意 ， 这 里 的 
连 字 符 要 加 上 反 斜 线 ， 因 为 它 在 字符 集 里 具有 特殊 意义 。 但 在 /HAL-[o- 9]+/ 里 的 第 一 个 
连 字符 则 不 需要 反 斜 线 ， 因 为 字符 集 括号 外 面 的 连 字符 没有 特殊 意义 ) 。 


字符 集 的 简写 

某 些 字 符 集 出 现 的 频率 非常 高 ， 所 以 我 们 给 它们 设 定 了 简写 形式 。 在 Perl 还 是 ASCII 的 时 
代 ， 我 们 不 必 担 心 字符 数量 ， 基 本 上 字符 集 的 简写 能 表示 的 无 非 就 是 那些 字符 。 但 引入 
Unicode 之 后 ， 情 况 就 不 同 了 ， 原 来 的 那些 简写 履 盖 的 范围 又 增 ， 已 经 不 像 原来 那么 实 
用 了 。 说 起 来 多 少 有 些 难 过 ， 我 们 当中 那些 用 了 Perl 许 多 年 的 人 仍然 不 愿 承认 这 一 点 。 
但 我 们 不 愿 逃 避 现 实 ， 你 也 不 该 如 此 。 你 看 到 的 其 他 人 号 的 代码 可 能 是 很 久 以 前 写 的 ， 
也 可 能 是 昨天 写 的 ， 仍 然 在 用 20 世 纪 90 年 代 的 简写 形式 ， 却 不 知道 其 实 这 些 简 写 的 意义 
已 经 发 生 了 很 大 变化 。 这 在 Perl 里 面 绝 不 是 个 小 问题 ， 常 常会 引发 大 家 的 激烈 争论 。 但 

不 管 结论 如 何 ， 能 正确 工作 的 代码 才 是 最 重要 的 。 


比如 ， 表 示 任 意 一 个 数字 的 字符 集 的 简写 是 \d， 那么 之 前 关于 HAL 的 例子 中 的 模式 我 们 
可 以 写成 /HAL-\d+/ 这 样 的 形式 ， 


$_ = 'TJhe HAL-9000 iequires authorization to continue。; 


注 14;， 除非 你 不 用 ASCII 而 是 使 用 BBCDIC 字 符 集 。 
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if (/HAL-[\d]3/) { 
say “The strzing mentions Some model of HAL computer。.; 


但 除了 ASCII 里 面 的 0 到 9 之 外 ， 还 有 许多 表示 数字 意义 的 字符 ， 所 以 上 面 这 条 正则 表达 
式 实际 上 还 能 匹配 HAL-a 等 形式 的 字符 串 。 在 Perl15.6 之 前 ，\d 简 写 确实 严格 等 同 于 字符 
集 [0-9] ， 而 今 还 有 许多 人 习惯 用 这 种 字符 集 作 为 定义 。 但 现在 ， 它 还 能 匹配 比较 少见 . 
的 其 他 语言 中 的 数字 字符 ， 比 如 5, g 或 四 等 等 ， 要 是 你 是 用 阿拉 伯 文 (Arabic) 、 蒙 十 
文 (Mongolian) 或 者 泰文 (Thai) 计数 的 话 。 所 以 ， 现 在 的 Perl 其 实 是 能 用 \d 匹 配 这 类 
数字 字符 的 。 1 


在 从 ASCII 到 Unicode 的 转变 过 程 中 ， 如 何 区 分 前 后 不 同意 义 的 字符 集成 了 一 个 需要 解决 
的 问题 。 为 此 ，Perl 5.14 引 入 了 一 种 新 的 修饰 符 ， 当 你 需要 严格 按照 ASCII 的 范围 来 匹配 
数字 字符 时 ， 可 以 选用 这 种 方式 。 这 个 修饰 符 是 /a， 写 在 正则 表达 式 末 尾 (我 们 稍 后 会 
在 第 八 章 介绍 有 关 修 饰 符 的 内 容 )， 表 示 按 照 ASCII 的 语义 展开 ， 


Use 5.014; 
$_ = “The HAL-9000 requires authorization to continue。; 


if (/HAL-[\d]+/a) { # 按 老 的 AsCII 字符 语义 解释 
say “The String mentions Some model of HAL computer 
] 


同样 地 ，\s 简 写 能 匹配 任意 空白 符 ， 所 以 效果 上 大 托 等 同 于 Unicode 属 性 \pfSpacej 给 95] 。 
在 Per15$.6 之 前 ，\s 仅 能 匹配 以 下 5 个 空白 符 : 换 页 符 (form-feed) 、 水 平 制 表 符 
(tab) 、 换 行 符 (newline) 、 回 车 符 《carriage return) 以 及 空格 字符 本 身 。 所 以 ， 明 
确定 义 的 字符 集 应 该 是 [\f\t\n\r]。 要 在 新 版 Perl 当 中 使 用 严格 表示 此 范围 的 字符 集 ， 
可 以 使 用 之 前 \d 例 子 中 一 样 的 办 法 : 

Use 5.014; 

if (/ 八 s/a) { # 按 老 的 ASCIT 字符 语义 解释 

say “The string matched ASCII whitespace。; 
】} 


Perl 5.10 还 增加 了 范围 更 小 的 空白 符 集 。 比 如 简写 \h， 它 只 匹配 水 平 空 白 符 ， 而 \v 则 只 
匹配 垂直 空白 符 。 把 \h 和 \v 并 起 来 ， 就 成 了 \p{fSpacej};， 


use 5.010; 


注 15:， 即使 在 Unicode 语 义 范 畴 内 ，\5 仍 然 不 会 匹配 王 直 制 表 符 、 下 一 行 (next line) 或 
不 间断 空格 (non breaking space) 字 符 ; 是 不 是 越 来 越 奇 怪 了 ? 请 参阅 有 1P:A/ WwWU， 
effectiveperIprogramnmain8g.co1t/blo8/9917 上 的 《Know your character classes under different 


semantics》 人 一文 。 
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评 (人 /\h/) { 
say “The String matched some horizontal whitespace，; 


】 


评 (人 VD) 并 
say 'The string matched some Whitespace。; 
】 


if (/[\v\h]/) { # 等 同 于 \pfSpacelj， 但 比 \s 能 匹配 的 要 多 
say “The string matched Some whitespace。; 


而 Perl 5.10 中 引入 的 \R 简 写 能 匹配 任意 一 种 断 行 符 ， 也 就 是 说 ， 不 管 你 用 的 是 什么 操作 系 
统 ，\R 总 会 匹配 表示 断 行 的 那个 字符 。 所 以 ， 不 管 是 \r\n 还 是 \n， 或 者 其 他 Unicode 里 面 
表示 断 行 的 字符 ， 它 都 能 一 概 匹 配 ， 而 不 用 考虑 原本 使 用 的 是 DOS 还 是 Unix 风 格 的 换行 
符 O 


简写 \w 一 直 被 称 作 “ 单 词 (word) ”字符 ， 尽 管 它 能 匹配 的 字符 并 不 是 严格 意义 上 的 
单词 字符 。 因 为 它 很 受 欢迎 ， 所 以 也 会 带 来 一 些 问 题 ， 虽 说 都 不 大 ， 但 说 起 来 总 是 怪 怪 
的 。 以 前 ，“ 单 词 ”的 定义 就 是 指 那些 可 作为 标识 符 (ideniiFier) 的 字符 ， 也 就 是 能 
来 为 Perl 变 量 或 者 子 程序 命名 的 字符 集 [ 星 16] 。 在 ASCII 语 义 下 ，NW 匹 配 的 是 这 样 一 组 字 
符 : [a-zA-Z0-9 ] ， 就 算 这 样 ， 人 们 也 常常 会 在 需要 只 匹配 字母 的 情况 下 匹配 到 数字 ， 
而 那 正 是 现实 生活 中 需要 做 到 的 事情 。 很 多 时 候 ， 人 们 只 是 希望 匹配 数字 和 字母 ， 但 党 
常 忘 了 其 实 下 划 线 也 属于 单词 字符 ， 所 以 也 会 匹配 到 。 


一 个 好 的 正则 模式 应 当 仅仅 匹配 需要 的 那些 字符 ， 不 留 一 点 多 余 。 所 以 只 有 当 我 们 需要 
匹配 Perl 标 识 符 的 时 候 ， 才 是 [a-zA-Z0-9_] 用 得 恰如其分 的 时 刻 。 但 我 们 真 的 需要 经 党 
做 这 件 事 吗 ? 


而 Unicode 对 \w 的 扩展 是 可 以 匹配 超过 100 000 个 不 同形 式 的 单词 字符 的 站 271 。 现 今 的 
定义 更 为 完整 准确 ， 但 对 大 多 数 人 来 说 ， 很 少 需要 在 实际 应 用 中 覆盖 如 此 众多 的 字 
符 。 虽 然 不 是 很 有 用 ， 但 也 不 该 忽略 它 ， 人 们 依然 在 日 常 工作 中 使 用 \w 的 形式 ， 你 也 会 
到 处 看 到 这 种 写法 。 判 断 这 100 000 个 字符 中 哪些 才 是 想 要 匹配 的 内 容 ， 应 该 是 你 的 职 
责 ， 但 多 半 都 是 指 [a-zA-Z] 这 些 。 我 们 在 第 150 页 上 的 “单词 锁 位 ”一 节 谈 及 “单词 边 
界 (word boundaries) ”时 会 看 到 更 多 相关 的 例子 和 说 明 。 


注 16: “那些 标识 符 实 际 上 吉 是 C 标 识 待 ，Perl 在 早期 选用 的 是 同一 组 字符 全。 
注 17: ”所 有 Unicode 的 属性 名 称 以 及 每 项 属性 所 费 括 的 字符 数量 都 列 在 peritraiprops 文 档 中 。 
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其 实 很 多 情况 下 ， 特 别 是 将 来 写 新 代码 时 ， 应 当 尽量 选用 范围 明确 、 可 维护 性 好 的 模式 
来 定义 字符 集 ， 避 免 一 味 采 用 简写 带 来 预期 之 外 的 结果 。 


反 义 简写 

有 时 候 你 也 许 只 是 为 了 指定 以 上 几 种 简写 以 外 的 字符 ， 也 就 是 类 似 于 [^d]、[^\w] 或 是 
[^\s] 这 样 的 模式 ， 来 表示 一 个 非 数 字 字 符 、 非 单词 字符 或 者 非 空白 符 。 为 此 ， 我 们 引 
入 了 它们 的 大 写 版 本 来 表示 否定 意义 ， 即 : \D、NMM 或 者 \S。 这 些 大 写 版 本 能 匹配 相应 小 
写 版 本 范围 以 外 的 字符 。 


这 些 简 写 既 可 以 作为 模式 里 独立 的 字符 集 ， 也 可 以 作为 方 括号 里 字符 集 的 一 部 分 。 也 
就 是 说 ，/[\dA-Fa-f]4/ 可 以 用 来 匹配 十 六 进 制 数字 ， 因为 十 六 进 制 表示 法 用 的 是 字母 
ABCDEF (或 abcdef) 作为 额外 数字 。 


有 种 比较 特别 的 复合 字符 集 是 [\d\D] ， 表 示 任 何 数字 或 非 数字 。 也 就 是 说 ， 它 会 匹配 任 
意 字符 ! 这 是 匹配 任意 字符 〈 包 括 换行 符 ) 的 常见 做 法 《而 点 号 则 只 能 匹配 换行 符 以 外 的 
所 有 字符 ) 。 此 外 ， 还 有 完全 无 用 的 [^\d\D] 字 符 集 ， 它 匹配 既 不 是 数字 也 不 是 非 数字 的 
字符 。 没 错 ， 那 就 是 什么 都 不 匹配 ! 


习题 
下 列 习题 答案 参见 第 318 页 上 的 “第 七 章 习题 解答 ”一 节 。 


记 住 ， 对 正则 表达 式 的 功能 感到 惊讶 是 正常 的 ， 正 因为 这 样 ， 本 章 习 题 才 比 其 他 章节 的 
习题 更 为 重要 。 请 做 好 会 遇 到 意外 的 心理 准备 


1.， [10] 写 个 程序 ， 从 输入 中 读 取 数据 ， 遇 到 包含 fred 字 符 串 的 行 就 打印 出 该 行 (对 于 
输入 中 的 其 他 行 则 不 做 任何 事 )。 如 果 输 入 中 的 某 一 行 包 含 字符 串 Fred、frederick 
或 者 A1fred， 请 问 是 否 会 匹配 并 打印 ? 另外 写 个 文本 文件 ， 在 里 面 随 意 编 个 “fred 
flintstone” 跟 他 朋友 的 故事 。 然 后 用 这 个 文件 作为 输入 来 测试 这 一 题 以 及 后 面 几 道 
题 。 

2 [6] 修 改 上 题 程序 ， 让 它 也 能 接受 Fred。 那 么 ， 当 你 的 输入 字符 串 是 Fred、 
frederick 或 者 ALfred 时 ， 是 否 也 匹配 ? (请 将 包含 这 些 名 称 的 各 行 加 到 刚才 的 文 
本 文件 。) 

3 [6] 写 个 程序 ， 只 输出 其 输入 中 含有 点 号 〈.) 的 每 一 行 ， 如 果 没 有 就 忽略 。 同 样 以 
刚才 的 文本 文件 进行 测试 。 如 果 其 中 有 行文 字 是 Mr.Slate， 看 看 会 输出 吗 ? 
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4， [8] 写 个 程序 ， 输 出 含有 要 求 的 单词 的 行 。 要 求 的 单词 用 大 写字 母 开 头 ， 但 并 非 全 
大 写 。 此 程序 是 否 会 匹配 含有 Fred 的 行 ， 而 不 匹配 含有 fred 或 FRED 的 行 ? 


5 [8] 写 个 程序 ， 打 印 那些 有 两 个 相连 且 相同 的 非 空格 字符 的 行 。 应 该 能 匹配 包括 如 
Mississippi、8Bamm-Bamm 或 者 11ama 等 词 的 行 。 


6 [8] 附 加 题 ， 写 个 程序 ， 输 出 在 输入 数据 中 同时 出 现 wilma 以 及 fred 的 每 一 行 。 
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第 八 章 


用 正则 表达 式 进 行 匹 配 


在 第 七 章 里 ， 我 们 已 经 大 致 了 解 了 正则 表达 式 的 基本 概念 。 接 下 来 ， 我 们 将 会 看 到 它 是 
如 何 融 人 Perl 世 界 的 。 


用 mV/ 进行 匹配 

在 第 七 章 中， 我 们 用 双 斜 线 的 写法 表示 模式 ， 比 如 /fred/。 但 事实 上 ， 这 是 m// (pattexzn 
match operator， 模 式 匹配 操作 符 ) 的 简写 。 就 像 我 们 在 介绍 qw// 操 作 符 时 提 到 的 ， 可 以 选 
择 任 何 成 对 的 定 界 符 。 所 以 ， 我 们 可 以 把 它 改 写 为 mn(fred) 、m<fred>、m{fred}、mfred]， 
或 者 也 可 以 用 其 他 不 成 对 定 界 符 来 改写 成 fred, 、mifred1、mhfred' 等 等 tt 。 


此 处 所 谓 的 “简写 ”是 指 如 果 你 选择 双 斜 线 作 为 定 界 符 ， 那 么 你 可 以 省 略 开头 的 m。 因 
为 Perl 程 序 员 喜 欢 省 略 多 余 字 符 ， 所 以 大 部 分 模式 匹配 都 会 写成 双 斜 线 的 形式 ， 就 
像 /fred/ 这 样 。 


， 你 应 该 明智 地 选择 模式 中 不 会 出 现 的 字符 作为 定 界 符 [ 注 21 。 在 匹配 常规 网 址 开 
| 





注 1: 不 成 对 定 界 符 就 是 没有 上 堪 右 之 分 的 符号 ， 所 以 模式 两 边 使 用 同样 的 标点 符号 。 
注 2: 在 使 用 成 对 的 定 界 茶 时， 通常 不 用 担心 在 模式 里 出 现 的 定 界 符 ， 因 为 该 定 界 符 在 模 
。 式 里 通常 是 成 对 出 现 的 。 也 吉 是 说 ，m(fred(.#)barney)、mfvwf2,)]} 与 mn[wilma[NnN 
t]+betty] 部 没 问题 ， 即 使 模式 中 含有 引号 也 行 ， 因 为 每 一 个 左 定 界 符 都 会 有 一 个 相应 
的 右 定 界 待 。 但 是 居 括 号 (与 ?) 并 非 正 则 表达 式 的 元 字符 ， 所 以 它们 可 能 不 会 或 对 出 
现 。 如 果 模 式 是 m{f(\d+)N\sk>=?\Ss#(\d+)}， 那 么 在 以 灾 括 号 作为 定 界 符 的 状况 下 ， 模 式 
中 的 大 于 号 前 面 就 需要 加 上 反 儿 线 ， 才 不 会 过 早 结束 模式 。 
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符 ， 从 而 提高 代码 可 读 性 ， 也 能 降低 维护 成 本 。 比 如 这 么 写 ，m%^http://% 霆 31 。 常 见 
的 定 界 符 是 花 括 号 。 如 果 你 用 的 是 程序 员 专 用 的 文本 编辑 器 ， 一 般 都 具有 从 左 括号 跳 到 
相应 的 右 括号 的 功能 ， 在 维护 代码 中 要 快速 移动 光标 时 就 非常 方便 。 


模式 匹配 修饰 符 


Perl 有 好 几 个 模式 匹配 修饰 符 (moedifier) ， 有 时 候 也 叫做 标志 (jag) [ 往 ] ， 它 们 是 一 
些 追 加 在 模式 表达 式 未 尾 定 界 符 后 面 的 字母 ， 用 来 改变 默认 的 匹配 行为 。 我 们 之 前 在 第 
七 章 中 展示 过 /a， 接 下 来 继续 介绍 其 他 修饰 符 。 


用 /i 进 行 大 小 写 无 关 的 匹配 
要 实现 大 小 写 无 关 的 模式 匹配 ， 比 如 同时 匹配 FRED、fred 和 Fred， 可 以 用 /i 修 饰 符 :， 
.print "Would you like to play a 8ame? “; 
chomp($_ = 《STDIN> ); 
许 (/yes/i) { # 大 小 写 无 关 的 匹配 
print“"In that case，I Tecomnmend that you go bowling.An"; 


】 


用 /s 匹 配 任意 字符 

歌 认 情况 下 ， 点 号 〈,) 无 法 匹配 换行 符 ， 这 对 大 多 数 单行 匹配 的 情况 是 合适 的 。 但 如 

果 字 符 串 中 含有 换行 符 ， 而 你 希望 点 号 能 匹配 这 些 换行 符 ， 那 么 /s 修 饰 符 可 以 完成 这 个 

任务 。 它 会 将 模式 中 的 每 个 点 号 ! 注 51 转换 成 按 字符 集 [\d\D] 来 处 理 ， 就 是 说 会 匹配 任 

意 字 符 ， 包 括 换行 符 。 当 然 ， 你 需要 有 一 个 包含 换行 符 的 字符 串 ， 才 能 看 出 它 的 差异 ; 
$_ = "TI saw Barney\ndown at the bowling alley\nwith Fred\vnlast night.\n"; 


讨 (/Bazney.#Fred/s) 并 _ 
print “That string mentions Fred after Barneyl\n ; 


没有 /s 修 饰 符 的 话 ， 上 面 的 匹配 就 会 失败 ， 因 为 前 后 两 个 名 字 并 不 在 同一 行 。 


但 有 时 这 项 特性 也 会 带 来 一 点 问题 。 修 饰 符 /s 会 把 模式 中 出 现 的 所 有 .都 修改 成 能 匹配 

任意 字符 ， 那 么 要 是 我 们 只 想 其 中 几 个 点 号 匹配 任意 字符 呢 ? 可 以 换 用 字符 集 [^\n] ， 

不 过 输入 太 采 烦 ， 所 以 Perl 5.12 开 始 引 入 了 ANN 简 写 来 表示 \n 的 否定 意义 。 

注 3 请 记 住 ， 镍 线 并 不 是 元 字符 ， 所 以 使 用 其 他 定 界 符 时 不 需要 再 加 上 反 斜 线 转 义 。 

注 4: 并 且 ， 在 Perl 6 的 领域 ， 这 类 东西 已 经 有 了 一 个 正式 的 名 字 : 副词 (adyerps) ， 但 这 个 称 
呼 早 在 Perl 5 的 时 候 就 已 经 开始 用 起 来 了 。 

注 $， 若 你 希望 其 中 部 分 点 号 能 匹配 换行 符 ， 只 需要 将 那些 部 分 替换 成 [\d\D] 就 行 了 。 
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用 /x 加 入 空白 符 
第 三 个 修饰 符 允 许 我 们 在 模式 里 随意 加 上 空白 符 ， 从 而 使 它 更 易 阅读 、 理 解 : 


/-?[0-9]+\.?[o-9]#/ # 都 挤 在 一 起 ， 很 难看 清 是 什么 意思 

/ -? [0-9]+\.? [0o-9]* /x ，# 加 入 空白 后 好 多 了 
由 于 加 上 /x 后 模式 里 可 以 随意 插入 空白 ， 所 以 原来 表示 空 s 格 和 制 表 符 本 身 的 空 白 符 就 失 
去 了 意义 ，Perl 会 直接 忽略 。 但 我 们 总 可 以 通过 转 义 方式 变通 实现 ， 比 如 在 空格 前 面 加 
上 反 斜 线 或 者 使 用 \t 等 等 。 不 过 最 常用 的 还 是 \s (或 者 \sk， 抑 或 \s+) ， 表 示 匹 配 空白 
符 。 


记 住 ，Perl 还 会 把 模式 中 出 现 的 注释 当 作 空 s 白 符 直 楼 忽 略 ， 所 以 我 们 可 以 在 模式 中 写 上 
注释 ， 帮 助 阅读 者 理解 作者 的 意图 : 


/ 
-? # 一 个 可 有 可 无 的 减 号 
[o-9]+ # 小 数 点 前 必须 出 现 一 个 或 多 个 数字 
\.? # 一 个 可 有 可 无 的 小 数 点 
[o-9]*# # 小 数 点 后 面 的 数字 ， 有 没有 都 设 关系 
/x # 字符 串 末 尾 


由 于 井 号 是 注释 的 标记 ， 所 以 如 果 要 表示 井 号 字符 本 身 时 ， 就 得 写成 \#， 或 者 使 用 字符 . 
集 [#] : 
/ 
fo-9]+ # 小 数 点 前 必须 出 现 一 个 或 多 个 数字 
[ 析 # 井 号 字符 本 身 
/x # 字符 串 末 尼 
另外 请 特别 注意 ， 注 释 部 分 不 要 使 用 定 界 符 ， 否 则 会 被 视 为 模式 终点 。 比 如 下 面 这 个 例 
子 : 


-? # 有 减 号 /没有 减 号 <--- 糟 糕 ! 

[o-9]+ # 小 数 点 前 必须 出 现 一 个 或 多 个 数字 

\.? # 一 个 可 有 可 无 的 小 数 点 

[o-9]* # 小 数 点 后 面 的 数字 ， 有 没有 都 没关系 
AX # 字符 串 末 尾 


合 选项 修饰 符 
如 果 需 要 对 单 次 匹配 使 用 多 项 修饰 符 ， 只 需要 把 它们 接 在 一 起 写 在 模式 未 尾 (不 用 在 意 : 
先后 顺序 ) ， 


评 (/barney。 *fred/is) { 站 同时 使 用 /和 /s 
pzrint "That stTing mentions Fred afteT BarneytNn" ， 
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】} 
或 者 像 下 面 这 样 展开 后 并 带 注释 : 


if (mtf 

bazney # 小 伙 子 barney 

溢 # 来 在 中 间 的 不 管 什么 字符 

fred  # 大 嗓门 的 fred 
}six) {  # 同时 使 用 /s、/ 和 /x 

print “That stTing mentions Fred aftez BazneylNn ; 
】 


注意 ， 我 们 用 花 括 号 作为 定 界 符 ， 这 样 一 来 ， 程 序 员 专用 编辑 器 可 以 根据 配对 的 花 括 
号 ， 快 速 方便 地 从 正则 表达 式 的 开头 跳 至 末尾 。 


选择 一 种 字符 解释 方式 


Perl 5.14 开 始 增加 了 一 些 用 于 通知 Perl 如 何 解释 字符 意义 的 修饰 符 ， 着 重 于 两 个 重要 
方面 : 对 大 小 写 的 处 理 以 及 对 字符 集合 简写 的 阐释 。 本 节 所 有 内 容 仅 适 用 于 Perl 5.14- 
和 更 新 版 本 。 


总 共有 三 种 字符 解释 方式 : ASCII、Unicode 和 1locale。 最 后 一 种 (也 只 有 这 一 种 ) 经 常 
会 引发 一 些 问题 。 修 饰 符 /a 告 诉 Perl 采 取 ASCII 方 式 ， 而 /u 则 表示 采取 Unicode 方 式 ， 最 
后 一 种 /1 表示 遵从 本 地 化 语言 的 设 定 ， 按 照 对 应 的 字符 集 编码 作 相应 处 理 。 如 果 不 提 供 
这 类 修饰 符 ，Perl 会 根据 perlre 文 档 中 描述 的 方式 采取 最 为 受 贴 的 行为 。 人 
符 ， 你 可 以 显 式 指定 程序 确切 的 行为 。 


首先 ， 我 们 来 谈 谈 字符 集 的 简写 。 我 们 之 前 已 经 看 到 过 /a 修 饰 符 的 用 法 ， 它 会 告诉 Perl 
仅 在 ASCII 范 围 内 阐释 \w、\d 和 \s 等 字符 集 简写 。 修 饰 符 /u 会 告诉 Perl 对 上 面 这些 简 写 采 
取 更 为 宽泛 的 匹配 方式 ， 只 要 是 Unicode 范 围 内 定义 的 单词 、 数 字 、 空 白 ， 都 能 匹配 。 
修饰 符 /] 告 诉 Perl 按 照 本 地 化 设 定 阐释 科 写 的 意义 ， 所 以 任何 一 个 本 地 设 定 的 字符 编码 
认为 是 单词 的 字符 ， 都 会 被 \w 简 写 匹配 ! 坟 41 。 所 以 ， 当 你 使 用 某 项 简写 并 希望 按照 特 
定语 义 对 其 进行 解释 的 话 ， 可 以 选择 恰当 的 修饰 符 作出 声明 ， 


use 5.014; 

/w+/a # 仅仅 是 A-Z、a-z、0-9、_ 这 些 字符 

/AU # 任何 Unicode 当 中 定义 为 单词 的 字符 

/ANw+/I # 类 同 于 ASCII 的 版 本 ， 但 单词 字符 的 定义 取决 于 本 地 化 设 定 


# 所 以 如 果 设 定 为 atin-9 的 话 ，C 也 算 单词 字符 





注 6; 实际 上 还 有 一 个 修饰 符 /d， 它 只 是 告诉 Perl 按照 “传统 (traditional) ”行为 行事 ， 即 按 
Perl 自己 的 推断 对 字符 意义 作出 最 为 妾 牛 的 阐 积 。 
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于 一 种 适合 你 ?很 抱歉 ， 这 个 问题 我 们 无 法 回答 ， 我 们 不 知道 你 要 做 什么 。 这 个 要 看 具体 
时 期 而 定 。 当 然 ， 如 果 心 存 呈 目 的 话 ， 可 以 始 代 采用 字符 集 的 方式 明确 声明 字符 范围。 


接 下 来 谈 谈 比 较 难 的 部 分 。 要 涉及 大 小 写 处 理 的 问题 ， 就 势必 要 知道 如 何 通过 大 写字 母 
得 到 对 应 的 小 写字 母 | 考 7] 。 如 果 需 要 匹配 时 忽略 大 小 写 ，Perl 必 须 得 知道 如 何 取得 对 
应 的 小 写字 母 。 在 ASCIH 里 面 ， 我 们 知道 字母 上 (0x4B) 对 应 的 小 写字 母 是 上 E (0x6B) 。 

反 过 来 也 一 样 ， 我 们 知道 ASCII 里 面 小 写 k 的 大 写 版 本 是 天 4 看 起 来 好 像 理 所 当 
然 ， 其 实 不 然 。 ， 


在 Unicode 里 ， 事 情 就 没 那么 简单 了 。 不 过 还 不 算 难 ， 因 为 我 们 预先 有 一 张 定义 好 的 映 
射 表 [E81 。 表 示 热 力学 温度 单位 的 开尔文 符号 (Kelvin sign) ， 在 Unicode 里 的 字符 
为 上 (U+212A) ， 同 样 也 有 一 个 对 应 的 小 写 版 本 上 (0x6B ) 。 尽 管 到 和 天 看 起 来 一 模 一 
样 ， 但 对 计算 机 而 言 ， 它 们 的 内 部 编码 不 同 ， 实 际 上 就 是 两 个 完全 不 同 的 字符 。 这 就 
是 说 ， 人 一 且 拿 到 小 写 版 本 的 上 ， 就 无 法 取得 原来 
对 应 的 大 写 版 本 ， 上 游 是 两 条 ， 该 回 哪 里 去 呢 ? 不 光 如 此 ， 有 些 字符 ， 比 如 合体 字 厅 
(U+FB00) ， 对 应 的 小 写 版 本 有 两 个 字符 六 。 字 母 8 的 小 写 也 是 两 个 小 写字 母 3gs， 但 你 

并 不 希望 匹配 这 样 的 小 写 版 本 。 单 个 /a 修 饰 符 表示 按照 ASCII 方 式 解释 简写 意义 ， 如 果 
使 用 两 个 /a， 则 进一步 表示 仅仅 采取 ASCIT 方 式 的 大 小 写 映射 处 理 : 

/K/aai # 只 匹配 ASCII 字 符 K 或 K， 但 不 匹配 开尔文 符号 

/k/aia # 其 实 /a 不 必 相 互 紧 挨 ， 分 开 写 的 效果 也 是 一 样 的 

/SSs/aai # 只 匹配 ASCII 的 ss、5$S$、SS、S$s， 不 匹配 

/ff/aai 。 ## 只 匹配 ASCII 的 ff、FF、fF、Ff， 不 匹配 ff 
人 你 必须 得 知道 正在 使 用 的 字符 编码 是 什么 。 比 如 内 码 为 
0xBC 的 字符 ， 它 究竟 是 Latin-9 里 面 的 下 还 是 Latin-1 里 面 的 4 ， 或 是 其 他 本 地 化 设 定 中 的 
字符 ? 如 果 不 知道 本 地 化 设 定 是 什么 字符 编码 ， 就 没 法 进行 大 小 写 转换 的 处 理 : [214] 


$_ =《9STDIN> ; 
-my $oE = chr( 0xBC ); # 明确 到 得 我 们 所 讲 的 那个 字符 
诸 〈/$0E/i) # 大 小 写 无 关 ? ? ? 未 必 。 


print “Found $0EN\n”; 
】} 


注 7: 这 在 Perl 里 面 属于 “Unicode bug”， 答案 其 实 是 在 系统 内 部 就 写 好 的 。 更 为 详尽 的 细节 
不 七 参阅 perliunicode 文 档 。 


注 8: 参阅 Pttp:Wunicode.org/Puplic/UNI1D4T4A/CaseFolding.trt。 


注 9: 只 要 本 书 在 出 版 过 程 中 不 发 生意 外 ， 你 可 以 从 本 书 电子 版 直接 复制 过 两 个 字符 ， 然 后 看 
看 它们 的 内 码 是 否 一 致 ， 虽 然 看 起 来 完全 一 样 。 
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在 这 里 的 例子 里 ， 根 据 Perl 处 理 $ 中 字符 串 以 及 模式 匹配 中 字符 的 方式 不 同 ， 你 可 能 会 
得 到 不 同 的 结果 。 如 果 程 序 源 代码 用 UTF-8 保 存 ， 但 输入 的 字符 串 是 Latin-9 编 码 的 ， 
会 发 生 什 么 ? 在 Latin-9 里 面 ， 字 符 灾 的 序号 值 为 0xBC， 而 它 的 小 写 版 本 we 的 序号 值 为 
0xBD。 在 Unicode 里 面 ，G 的 代码 点 是 U+0152， 而 we 的 代码 点 是 U+0153。 在 Unicode 
里 ，U+00BC 表 示 共 ， 它 并 没有 什么 小 写 版 本 。 如 果 你 在 $_ 中 输入 的 是 0xBD 并 且 Per] 将 
正则 表达 式 作为 UTF-8 字 符 串 来 处 理 的 话 ， 是 不 会 得 到 预想 的 结果 的 。 不 过 ， 你 可 以 汪 
加 /1 修饰 符 强制 Perl 按 照 本 地 化 设 定 的 规则 解析 正则 表达 式 的 含义 ， 


$_ -= <STDIN>; 
my 4$0E = chr( oxBC ); # 明确 取得 我 们 所 讲 的 那个 字符 
if (/$0E/li) { 。 ## 好 多 了 


print “Found $0E\n"; 
】} 


如 果 希 望 始终 按 Unicode 语 义 痢 释 ， 做 法 同上 面 Latin-1 的 例子 一 样 ， 在 正则 表达 式 末尾 
明确 写 上 /u 修 饰 符 : 
$_ -= <STDIN>; 


if (/E/ui) {  # 现在 用 的 是 Unicode 语 义 
print “Found EN\n"”; 
} ， 


是 不 是 觉得 头 很 大 ? 没 错 ， 谁 都 不 喜欢 这 么 复杂 的 情形 ， 不 过 Perl 在 这 里 已 经 尽 其 所 能 
把 该 做 的 事 都 处 理 好 了 。 要 是 能 推倒 历史 重新 来 过 的 话 ， 也 许 就 不 会 闹 出 这 么 多 麻烦 来 
了 。 


其 他 选项 


当然 还 有 许多 其 他 修饰 符 ， 我 们 会 在 用 到 时 再 作 介绍 。 你 也 可 以 参阅 perlop 文 档 中 有 关 
m// 的 部 分 ， 以 及 本 章 随后 即将 介绍 的 其 他 正则 表达 式 相关 的 操作 符 E"" 。 


错位 


默认 情况 下 ， 如 果 给 定 模式 不 匹配 字符 串 的 开头 ， 就 会 顺 移 到 下 一 个 字符 继续 尝试 。* 而 
通过 给 定 错位 ， 我 们 可 以 让 模式 仅 在 字符 串 指定 位 置 匹 配 。 


注 10:; ”这 里 我 们 通过 chr() 函 数 构 造 这 个 字符 ， 以 确保 内 码 同 我 们 讲 的 一 致 ， 避 免 程序 源 
代码 编码 不 一 致 导致 结果 不 同 的 问题 。 
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” \A 锚 位 匹配 字符 串 的 绝对 开头 ， 也 就 是 说 ， 如 果 开 头 位 置 上 不 匹配 ， 是 不 会 顺 移 到 下 一 
个 位 置 继续 尝 试 的 。 比 如 下 面 这 个 模式 用 于 判断 字符 串 是 否 以 https 开 头 : 


mf\Ahttps?:/V/] 


对 应 地 ， 如 果 要 匹配 字符 串 的 绝对 末尾 ， 可 以 用 \z 销 位 。 比 如 下 面 这 条 模式 匹配 以 .png 
”结尾 的 字符 串 : 


mf\.png\z}i 


为 什么 说 “字符 串 的 绝对 末尾 ”? 我 们 要 强调 的 是 ， 在 \z 后 面 再 无 任何 其 他 东西 。 这 里 
面 有 点 历史 ， 另 外 有 个 类 似 的 行 未 错位 \z， 它 允许 后 面 出 现 换行 符 。 这 样 人 们 就 不 必 操 
心 去 掉 单 行内 容 末尾 的 换行 符 


While (<STDIN>) { 
.print 放 八 .,png\Z/; 


如 果 严 格 匹配 行 末 ， 那 么 原文 中 的 换行 符 仍旧 会 保留 下 来 ， 所 以 后 续 要 输出 前 必须 手工 
去 掉 换 行 符 : 
While (《STDIN>) 1 


chomp; 
pTrint "$_ An” jif 八 .png\z/; 


有 时 候 ， 你 会 需要 同时 使 用 行 首 错位 和 行 末 销 位 ， 以 确保 模式 能 匹配 给 定 字符 串 的 全 
部 。 常 见 的 例子 是 /\A\s*\Z/ ， 它 会 匹配 一 个 空 行 。 但 这 个 所 谓 的 空 行 其 实 是 允许 包含 
若干 空白 符 的 ， 就 像 制 表 符 和 空格 什么 的 ， 虽 然 看 不 见 ， 也 没有 特殊 意义 ， 但 整体 来 讲 
这 样 的 行 属 于 空 行 。 这 条 模式 匹配 的 就 是 这 样 的 空 行 ， 就 像 文章 段落 之 间 空 出 的 那些 行 
一 样 ， 如 果 不 加 错位 ， 则 会 匹配 其 他 非 空 行 。 
\A、\Z 和 \z 都 是 Perl 5 里 面 的 正则 表达 式 特性 ， 但 并 不 是 每 个 人 都 习惯 用 它们 。 在 
Perl 4 里 〈 很 多 人 就 是 从 那 时 起 养 成 的 习惯 ) ， 所 用 的 表示 字符 串 开 头 销 位 的 是 脱 字符 
(^) 些 I0， 用 于 表示 字符 串 结尾 锁 位 的 是 $。 这 两 个 写法 在 Per 15 里 面 仍然 可 用 ， 但 已 经 
演化 成 了 行 首 (beginning-of-line) 和 行 末 (end-of-line) 错位 。 


那么 ， 行 首 (beginning-of-line) 和 字符 串 首 (beginning-of-string) 的 区 别 何在 ? 出 现 这 


注 11: 是 的 ， 你 之 前 看 到 过 脱 字符 在 正则 模式 中 的 另 一 种 用 法 。 当 它 出 现在 字符 集 定义 的 开头 
时 ， 表 示 对 字符 集 的 范围 取 反 。 但 在 字符 集 定义 之 外 的 话 ， 某 些 时 候 就 是 元 字符 ， 作 为 
表示 字符 事 首 (start-of-string) 锚 位 。 
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种 差别 在 于 ， 你 是 怎么 看 待 行 的 概念 ， 计 算 机 又 是 怎么 看 待 的 。 当 用 $ 匹配 字 符 串 时 ， 
Perl 并 不 关心 其 中 的 内 容 。 对 Perl 来 讲 ， 这 堆 东 西 不 过 是 一 个 大 字符 串 罢 了 ， 即 便 里 面 有 
好 多 换行 符 也 是 如 此 。 但 对 人 来 讲 ， 换 行 符 起 到 分 隔 字 符 单 元 的 作用 ， 看 起 来 就 是 多 行 
文本 : 

$_ = 'This is a Wilma 1ine 

barney' is on another line 


but this ends in fred 
and a final dino Line'; 


假设 给 你 的 任务 是 找 出 行 末 出 现 fred 的 字符 串 ， 而 不 是 在 整个 字符 串 末尾 出 现 fred 的 字 


符 串 。 在 Perl 5 里 面 ， 你 可 以 用 $ 锁 位 和 /m 修 饰 符 表示 对 多 行内 容 进 行 匹配 。 下 面 这 个 模 
式 能 成 功 匹 配 ， 因 为 上 面 这 个 多 行 字符 串 中 fred 位 于 行 末 位 置 


/fred$ym 


此 外 ，/m 修 饰 符 还 改变 了 原先 在 Perl 4 中 错位 的 工作 方式 。 上 面 的 模式 会 匹配 给 定 字符 审 
中 所 有 fred 以 及 随后 出 现 的 换行 符 ， 或 者 是 字符 串 绝对 末尾 位 置 上 的 fred。 


修饰 符 /m 同 样 会 改变 ^ 销 位 的 行为 ， 也 就 是 说 ， 该 销 位 会 同时 匹配 字符 串 绝 对 开头 位 置 和 
换行 符 之 后 的 位 置 。 所 以 下 面 这 个 模式 会 匹配 成 功 ， 因 为 多 行文 本 中 barney 出 现在 了 行 
首 : 


/^bazneyyV 


如 果 没 有 /m，^ 和 $ 的 行为 就 如 同 \A 和 \z 一 样 。 并 且 ， 如 果 模 式 写 好 后 哪 天 又 追加 了 /m 开 
关 的 话 ， 就 会 改变 原来 的 意图 ， 所 以 尽 可 能 严 济 地 使 用 恰到好处 的 销 位 ， 不 留 一 点 多 
余 ,. 总 归 要 安全 些 。 但 正如 我 们 之 前 提 到 的 ， 很 多 人 从 Perl 4 开始 就 养 成 了 习惯 ， 所 以 身 
边 仍然 会 看 到 许多 使 用 * 和 4 锚 位 的 例子 ， 但 它们 的 本 意 其 实 只 是 \A 和 \z 罢 了 。 本 书后 半 
部 分 ， 我 们 将 选用 \A 和 \z 严 廊 行 事 ， 除 非 真 的 需要 用 到 匹配 多 行文 本 的 情况 。 


单词 锁 位 

锁 位 并 不 局 限于 字符 串 首 尾 。 比 如 \b 是 单词 边界 错位 ， 它 匹配 任何 单词 的 首尾 ! 信 ?1 。 
因此 ，/\bfred\b/ 可 匹配 fred， 但 无 法 匹配 frederick、alfred 或 manfredmann。 这 和 文 
字 处 理 器 的 搜索 命令 类 似 ， 常 称 为 “ 整 词 匹 配 ”。 


不 过 ， 这 里 所 说 的 “单词 ”并 不 完全 等 同 于 一 般 的 英文 单词 ， 它 是 由 一 组 ww 字符 构成 的 
字符 集 ， 也 就 是 由 英文 字母 、 数 字 与 下 划 线 组 成 的 字符 串 。\b 销 位 匹配 的 是 一 组 连续 的 


注 12: 有 些 正则 表达 式 引 价 会 以 一 个 错位 来 表示 单词 开头 ， 另 一 个 锚 位 来 表示 单词 结尾 ， 但 Perl 
不 加 区 分 ， 首 尾 都 用 \b 表 示 。 
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\w 字 符 的 开头 或 结尾 。 有 关 \w 简 写 的 准确 定义 ， 请 复习 一 下 本 章 之 前 的 介绍 。 


在 图 8-1 中 ， 每 个 词 下 方 会 出 现 灰 色 下 划 线 ，\b 能 匹配 的 位 置 以 箭头 标识 。 因 为 每 个 单词 
都 会 有 开头 与 结尾 ， 所 以 字符 串 中 的 单词 边界 一 定 是 偶数 个 。 





图 8-1， 用 \b 匹 配 单词 边界 


此 处 所 谓 的 “单词 ”， 是 指 一 连 串 英文 字母 、 数 字 与 下 划 线 的 组 合 ， 也 就 是 匹配 /\w+/ 
模式 的 字符 囊 。 该 名 共有 5 个 单词 ， That、s、a、word 以 及 boundary [ 往 3] 。 要 注意 的 
是 ，word 两 边 的 引号 并 不 会 改变 单词 边界 。 这 些 单词 是 由 一 组 字符 构 成 的 。 


因为 单词 边界 锚 位 \b 只 匹配 每 组 \w 字 符 的 开头 或 结尾 ， 所 以 每 个 箭头 会 指向 灰色 下 划 线 
的 开头 或 结尾 。 


单词 边界 锚 位 非常 有 用 ， 它 保证 我 们 不 会 意外 地 在 delicatessen 中 找到 cat， 在 
boondoggle 中 找到 dog， 或 在 selfishness 中 找到 fish。 有 时 候 ， 你 只 会 用 到 一 个 单词 边界 
锚 位 ， 像 用 /\bhunt/ 来 匹配 hunt、hunting 或 hunter， 而 排除 了 shunt， 或 是 用 /stone\b/ 
来 匹配 standstone 或 flintstone， 但 不 包括 capstones。 


非 单词 边界 销 位 是 \B， 它 能 匹配 所 有 \b 不 能 匹配 的 位 置 。 因 此 ， 模 式 /\bsearch\B/ 会 匹 


配 searches、searching 与 searched， 但 不 匹配 search 或 Yesearching。 


绑 定 操作 符 =~ 


默认 情况 下 模式 匹配 的 操作 对 象 是 $_ ， 绑 定 操作 符 (Binding operator，=~) 告 诉 Perl， 拿 
右边 的 模式 来 匹配 左边 的 字符 串 ， 市 不 是 匹配 $_ 呈 1 。 例 如 

my $some_other =“I dream of betty rubble."; 

计 ($some_other = /\brub/) { 


print "Aye，there's the rub.An ; 


】 


注 13: ”从 过 里 可 以 看 出 来 ， 为 什么 我 们 想 改变 单词 的 定义 了 ， 因 为 That's 应 该 算 成 一 个 单词 ， 
而 不 该 拆 成 两 个 单词 与 所 有 格 符号 。 就 算 在 最 严肃 的 英文 资料 中 ， 也 不 难看 到 这 种 缩写 
风格 。 

注 14: ”除了 模式 匹配 ， 其 他 某 些 运算 也 会 用 到 纪 定 操作 符 ， 我 们 稍 后 会 提 到 。 
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绑 定 操作 符 虽然 看 起 来 像 某 种 赋值 操作 符 ， 其 实 并 非 如 此 ! 它 只 是 说 明 本 来 这 个 模式 匹 
配 会 针对 $ 变量， 但 现在 请 匹配 左边 给 出 的 字符 串 。 著 没有 绑 定 操作 符 ， 表 达 式 就 会 使 
用 默认 的 $_。 


在 下 面 这 个 〈 有 点 不 寻常 的 ) 例子 里 ， Likes_per] 会 被 赋予 一 个 布尔 值 ， 这 个 结果 取 
决 于 用 户 键 和 人 的 内 容 。 这 段 代码 属于 快速 消费 型 (quick-and-dirty) ， 因 为 判断 之 后 就 
于 弃 了 用 户 的 输入 。 这 段 代 码 的 大 致 功能 是 读 取 输 入 行 ， 匹 配 字符 串 与 模式 ， 然 后 舍弃 
输入 行 的 内 容 埋 5] 。 这 里 的 匹配 操作 完全 没有 用 到 默认 变量 $_ ， 当 然 也 没有 改动 它 的 
值 ; 

print "Do you like Perl? ， 

my $Likes_perl = | -~ 2 

人 扩 时 光 流 逝 We 


if ($Likes_perl) { 
pzint “You said earlier that you like Perl，5so., .ANn"; 


} 
因为 绑 定 操作 符 的 优先 级 相当 高 ， 也 就 没 必要 用 圆 括号 来 括 住 模式 测试 表达 式 。 所 以 下 
面 这 一 行 如 同上 面 的 表达 式 一 样 ， 会 将 匹 闪 结果 (而 非 该 行 输入 的 内 容 ) 存 进 变量 ， 


fy $1ikes_perl = 《STDIN> = /\byes\b/iy; 


模式 中 的 内 插 


正则 表达 式 内 部 可 以 进行 双 引 号 形式 的 内 插 ， 这 样 我 们 就 可 以 很 快 写 出 下 面 这 样 类 似 
8rep 命 令 的 程序 ， 


#1VUSITVbinVpez]l -W 
my $what = “larTy”; 


while (<>) { 
if (/ 作 A($uhat)/) { # 模式 的 销 位 被 定 在 字符 串 的 开头 
pzint "We Saw $what in beginning of $“; 
】} 


】 


不 管 $what 的 内 容 是 什么 ， 当 我 们 进行 模式 匹配 时 ， 该 模式 都 会 由 和 hat 的 值 决定 ， 在 这 
里 ， 它 等 效 于 /\A(larry)/， 也 就 是 在 每 行 的 开头 寻找 larTy。 


但 $hat 的 内 容 未 必 一 定 要 事先 写 在 直接 量 中 ， 我 们 可 以 通过 @ARGV 取 得 命令 行 参数 ， 


注 15:， .请 记 住 ， 除非 While 和 锦 环 的 条 件 表 达 式 中 只 有 整 行 输入 操作 符 (<STDIN>) ， 否 则 输入 行 
不 会 被 Perl 自 动 存 入 $ 。 
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my 和 uhat =- shift BARGV; 


如 果 第 一 个 命令 行 参数 是 fredjbarney， 则 模式 会 变 成 /A{fredjbarney)/， 人 也 就 是 在 每 
一 行 开头 寻找 fred 或 barney [ 竹 !9 。 上 面 搜寻 larry 时 两 边 看 似 多 余 的 圆 括号 其 实 非常 
重要 。 如 果 省 略 圆 括号 ， 当 输入 的 模式 改 成 现在 这 样 两 者 选 一 的 话 ， 就 会 产生 另外 的 效 
果 : 要 么 在 字符 串 开 头 匹配 fred， 要 么 在 字符 串 的 任何 地 方 匹配 barney。 


将 程序 代码 改 成 从 @ARGV 读 取 匹 配 模式 后 ， 这 个 程序 就 和 Unix 的 8reP 命 令 很 像 了 。 但 我 
们 必须 注意 字符 串 里 的 元 字符 。 如 果 $hat 的 值 为 'fred(barney'， 该 模式 就 会 变 成 八 
A(fred(barzney)/， 你 也 知道 这 样 是 无 法 正常 工作 的 ， 它 会 报告 非法 正则 表达 式 的 错误 并 
中 断 程序 运行 。 不 过 运用 某 些 高 级 技术 的 话 [得 ”1 ， 是 可 以 捕获 这 类 错误 的 (或 者 从 一 
开始 就 解除 元 字符 的 魔法 ) ， 以 避免 程序 崩 泪 。 不 过 目前 你 只 需要 记 住 ， 一 且 赋 予 用 户 
使 用 正则 表达 式 的 权力 ， 他 们 就 该 负 起 正确 使 用 的 责任 。 


捕获 变量 


圆 括号 出 现 的 地 方 一 般 都 会 触发 正则 表达 式 引 擎 捕获 匹配 到 的 字符 串 。 捕 获 组 会 把 匹配 
圆 括号 中 模式 的 字符 串 保 存 到 相应 的 地 方 。 如 果 不 止 一 个 括号 ， 也 就 不 止 一 个 捕获 组 。 
每 个 捕获 组 包含 的 都 是 原始 字符 串 中 的 内 容 ， 而 不 是 模式 本 身 。 我 们 可 以 通过 反 向 引用 
取得 这 些 捕 获 内 容 ， 但 也 可 以 在 匹配 操作 结束 后 立即 通过 相应 的 捕获 变量 取得 这 些 内 


容 。 


既然 这 些 捕获 变量 保存 的 是 字符 串 ， 那 就 说 明 它 是 标量 变量 。 在 Perl 里 面 ， 它 们 的 名 称 
就 是 $1 和 $2 这 样 的 形式 。 模 式 中 有 多 少 个 捕获 括号 ， 就 有 多 少 个 对 应 名 称 的 捕获 变量 可 
用 。 所 以 ， 变 量 $4 的 意思 就 是 模式 中 第 4 对 括号 所 匹配 的 字符 串 内 容 ， 这 个 内 容 和 模式 
运行 期 间 反 向 引用 \4 所 表示 的 内 容 是 一 样 的 。 但 它们 并 非 同一 个 事物 的 两 种 名 称 :; \4 反 
向 引用 的 是 模式 匹配 期 间 得 到 的 结果 ， 而 和 4 则 是 模式 匹配 结束 后 对 得 到 的 捕获 内 容 的 索 … 
引 。 更 多 关于 反 向 引用 的 信息 请 参阅 perlire 文 档 。 


可 以 说 ， 捕 获 变量 是 正则 表达 式 无 比 强大 的 重要 原因 之 一 ， 因 为 有 了 它 ， 我 们 才 得 以 拥 
有 提取 字符 串 中 某 些 特定 部 分 的 能 


$_ = “Hello there，neighbor”; 
计 


了 (/\s(\[a-za-z]t),/) { ， ”， # 捕获 空白 符 和 逗号 之 间 的 单词 


注 16: ” 明 眼 的 读者 将 会 知道 ， 你 通常 无 法 在 命令 行 上 键入 fred|barney 这 个 参数 ， 因 为 坚 线 符号 
是 shell 的 元 字符 。 请 参考 手头 的 shell 说 明文 档 ， 学 习 如 何 为 命令 行 参数 加 上 引号 。f 


注 17: “在 此 状况 下 ， 你 可 以 使 用 eval 块 来 捕获 这 个 错误 。 你 也 可 以 用 quotemeta (或 是 它 的 等 效 
形式 \Q) 为 所 内 插 的 文字 加 上 引号 ， 这 样 一 来 ， 特 殊 总 义 的 元 字符 束 不 会 捣乱 了 。 
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pIrint “the Word was $1\n"; # 打印 the word was there 
】 


或 者 也 可 以 一 次 捕获 多 个 字符 串 : 


$_ = "Hello there，neighbor"; 
if (人 (AS+) (\S+)，(\S+)V) 
pPIint "words were $1 $2 $3\n”; 


】 


运行 结果 是 words where Hello there neighbor。 请 注意 ， 在 输出 结果 里 没有 喜 号 。 因 
为 模式 里 的 逗号 放 在 圆 括号 外 面 ， 所 以 第 二 个 捕获 中 不 会 有 逗号。 使 用 这 个 技巧 ， 我 们 
可 以 精确 筛选 捕获 的 〈 和 跳 过 的 ) 数据 。 


有 时 得 到 的 捕获 变量 可 能 是 空 的 ! 兰 !8 ， 因 为 给 出 的 字符 串 完全 有 可 能 不 符合 模式 要 
求 。 所 以 ， 捕 获 变 量 有 可 能 出 现 包含 空 字符 串 的 情况 ， 
my $dino = "I feat that I'11 be extinct after 1000 years.; 
计 ($dino = /([o-9]*) yeazs/) { 
print "That said '41” years.Mn"; # $1 为 1000 


】 


$dino = "I fear that I 11 be extinct after a few million yeazs."; 
证 ($dino =” /1([o-9]*) yeazs/) 工 
print "That said '$1' yearzs.\n"; # $1 为 空 字符 串 


捕获 变量 的 存续 期 
这 些 捕获 变量 通常 能 存活 到 下 次 成 功 匹配 为 止 储 !9] 。 也 就 是 说 ， 失 败 的 匹配 不 会 改动 
上 次 成 功 匹 配 时 捕获 的 内 容 ， 而 成 功 的 匹配 会 将 它们 的 值 重 置 。 这 就 意味 着 ， 捕 获 变 
量 只 应 该 在 匹配 成 功 时 使 用 ， 否 则 就 会 得 到 之 前 一 次 模式 匹配 的 捕获 内 容 。 下 面 的 ( 失 
败 ) 案例 本 来 应 该 输出 从 $ 捕获 的 某 个 单词 。 但 是 如 果 匹 配 失败 ， 它 会 输出 之 前 遗留 在 
$1 里 的 字符 串 : 

my $wilma. = “123 3; 


4$wilma =~ /([0-9]+)/; # 匹配 成 功 ，$1 的 内 容 是 123 
$wilma =~ /([a-zA-Zj+)/; # 错 了 ! 这 里 没有 判断 匹配 结果 是 否 成 功 





注 18: 。 空 字符 事 并 不 等 同 于 林 定 义 字符 串 。 若 模式 中 有 三 个 或 者 更 少 的 加 括号 ， 那 么 $4 的 值 就 

2 是 undef。 

注 19:， ”实际 春 续 范围 的 规则 更 为 复杂 (具体 请 参考 说 明文 档 ) ， 不 过 一 般 来 说 ， 模 式 匹配 后 的 
若干 行内 就 会 用 到 这 些 变量 ， 所 以 大 体 不 会 成 为 问题 。 
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pTint "Wilma's Word Was $1..。 or was it?\n?3 间 所 以 捕获 变量 和 里 的 内 容 仍旧 是 1231 
这 就 是 为 什么 模式 匹配 总 是 出 现在 if 或 while 条 件 表达 式 里 的 原因 : 


if ($wilma = /([a-zA-Z]+)7) 

pzrint "Wilma's word was $1.\n"; 
} else { 

print “Wilma doesn't have a word.\n ; 
} 


既然 这 些 捕获 内 容 不 会 永远 留存 ， 那 么 $1 之 类 的 捕获 变量 只 应 该 在 模式 匹配 后 的 数 行 
内 使 用 。 如 果 程 序 维护 员 在 原先 的 正则 表达 式 和 $1 的 使 用 之 间 加 入 了 一 个 新 的 正则 表达 
式 ，$1 将 会 是 第 二 次 匹配 捕获 的 值 ， 而 非 第 一 次 。 因 此 ， 如 果 需 要 在 数 行 之 外 使 用 捕获 
变量 ， 通 常 最 好 的 做 法 是 将 它 复制 到 某 个 普通 变量 里 。 这 其 实 也 能 改善 程序 代码 的 可 读 
性 : 


族 ($wilma =~ /([a-zA-Z]+)/) { 
my $wilma_word = $1; 


】 


稍 后 ， 在 第 九 章 我 们 会 学 习 如 何在 模式 匹配 发 生 的 同时 ， 直 接 将 捕获 的 内 容 存 到 变量 ， 
免 于 使 用 $1 这 种 粗放 的 写法 。 


不 捕获 模式 

目前 所 见 的 圆 括号 都 会 捕获 部 分 的 匹配 字符 串 到 捕获 变量 中 ， 但 有 时 候 却 需 要 关闭 这 个 
功能 ， 而 仅仅 只 是 用 它 来 进行 分 组 。 比 如 某 个 模式 中 有 些 部 分 是 可 选 的， 之 后 的 部 分 
却 是 要 捕获 的 。 好 比 在 某 些 时 候 巨 无 霸 (bronto) 是 可 选 的 ， 而 之 后 的 部 分 ， 比 如 牛排 
(steak) 或 者 汉堡 (burger) 却 正 是 我 们 感 兴 趣 的 一 样 : 


计 (/(bronto)?Ssauzus (steak|burger)y/) { 
pzint “Fred wants a $2Nn ; 


尽管 有 时 “bronto” 不 存在 ， 还 是 得 把 $1 变 量 留 给 它 。Perl 只 是 按 左 圆 括号 的 序号 来 决定 
捕获 变量 名 ， 这 导致 我 们 真正 想 捕获 的 内 容 只 能 进入 $2。 在 更 复杂 的 模式 中 ， 这 种 情况 
非常 让 人 困惑 。 


还 好 Per]l 的 正则 表达 式 允 许 使 用 圆 括号 分 组 但 不 进行 捕获 。 我 们 把 这 电 做 不 捕获 圆 括号 
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(nomcapturing parentheses) ， 书 写 的 时 候 也 有 些 差别 ， 需 要 在 左 括号 后 面 加 上 问号 和 
冒号 (?:) [2 ， 告 诉 Perl 这 一 对 圆 括号 完全 是 为 了 分 组 而 存在 的 。 


可 以 在 这 里 使 用 不 捕获 圆 括号 来 跳 过 “bronto”， 这 样 就 可 以 用 $1 捕 获 实 际 需要 的 内 


or 
合 : 


计 〈/(?:bronto)?sauTus (〈(steak|burger)/) { 
Print “Fred wants a $1\n'" ; 


】} 


之 后 若 要 修改 正则 表达 式 ， 以 支持 巨 无 霸 议 堡 的 乔 肉 特色 版 ， 就 可 以 在 这 个 模式 中 加 入 
不 捕获 选项 。 这 时 候 你 感 兴趣 的 字符 串 仍然 会 进入 捕获 变量 $1。 若 是 没有 这 个 功能 ， 就 
必须 在 每 次 加 入 分 组 括号 之 后 修改 捕获 变量 名 ; 


if (/(?:bronto)?saurus〈?:BBQ )?(steak|buzger)/) { 
pzint “Fred wants a $1Nn ; 


Perl 的 正则 表达 式 有 许多 其 他 用 在 圆 括号 内 部 的 修饰 符 ， 能 达成 更 复杂 的 功能 ， 比 如 前 
聊 、 后 顾 、 内 妃 注 释 ， 甚 至 可 以 在 模式 中 运行 代 码 。 详 细 信息 可 以 参考 per1e 文 档 。 


命名 捕获 

我 们 可 以 利用 圆 括号 的 捕获 功能 提取 特定 字符 串 并 保存 到 诸如 $1、$2 这 样 的 变量 中 。 不 
过 就 算是 较为 简单 的 模式 ， 要 维护 数字 变量 和 圆 括号 之 间 的 对 应 关系 也 是 一 件 比较 困难 
的 事 。 比 如 下 面 这 个 正则 表达 式 ， 匹 配 $names 中 出 现 的 两 个 名 字 : 


use 5.010; 


ny $names = Fred or Barney ; 
jif( $names =~ m/(\w+) and (\w+)/ ) { # 不 会 匹配 成 功 
Say "IT saw $1 and $2”; 

】} 
实际 上 看 不 到 say 的 输出， 因为 模式 字符 串 中 期 望 的 是 and， 而 实际 变量 中 给 出 的 是 or。 
为 了 应 对 这 种 情况 ， 我 们 觉得 应 该 允许 两 者 并 存 ， 所 以 在 正则 表达 式 中 加 入 择 一 匹配 
(alternation) ， 不 管 and 还 是 oz 都 没关系 。 当然 ， 作 为 择 一 匹配 的 部 分 必须 要 加 上 图 括 
号 以 表示 候选 列表 范围 


USe 5.010; 


my $names = “Fred or Barney ; 


注 20: “这 是 ?在 正则 表达 式 中 的 第 四 种 用 法 ; 表示 问号 字符 本 身 〈 需 要 转 义 ) 、 表 示 数 量 可 有 可 
无 、 表 示 非 贪 球 匹配 (第 九 章 中 介绍 ) 和 这 里 的 表示 放弃 捕获 。 
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计 ( $names => m/(WwW+) (andlor) (w+)/ ) {f # 现在 能 匹配 了 
Say "TI saw $1 and $2"; 


】 
蚜 ! 虽然 现在 能 看 到 输出 的 消息 ， 但 第 二 个 名 字 不 对 ， 因 为 我 们 刚 又 加 上 了 一 对 圆 括 号 
捕获 其 中 内 容 。 现 在 从 $2 拿 到 的 是 择 一 匹配 部 分 中 的 内 容 ， 而 原本 希望 拿 到 的 第 二 个 名 
字 推 后 存放 到 了 $3 变 量 中 ， 而 我 们 事后 并 未 输出 该 变量 ， 


I saw Fred and or 
当然 我 们 可 以 用 不 捕获 圆 括号 的 写法 来 解决 ， 但 换 汤 不 换 药 ， 问 题 是 我 们 仍旧 要 记 住 括 
号 的 序号 。 要 是 模式 中 需要 捕获 的 内 容 有 很 多 该 怎么 办 呢 ? 


为 了 避免 记忆 $1 之 类 的 数字 变量 ，Perl 5.10 增 加 了 对 捕获 内 容 直 接 命名 的 写法 。 最 终 捕 
获 到 的 内 容 会 保存 在 特殊 哈 希 ‰%+ 里 面 , 其 中 的 键 就 是 在 捕获 时 用 的 特殊 标签 ， 对 应 的 值 则 
是 被 捕获 的 字符 串 。 具 体 的 写法 是 (?<LABEL>PATTERN) ， 其 中 LABEL 可 以 自行 命名 [ 注 21] 。 
下 面 把 第 一 个 捕获 标签 定 为 name1， 第 二 个 标签 定 为 name2。 所 以 ， 提 取 捕 获 内 容 时 需要 
访问 的 变量 变 成 了 $+{name1} 和 $+{fname2}: 


Use 5.010; 
my $names = “Fred or Barney ; 
if ( $names =~ m/(?<namel>Mw+) (?:andlor) (?<name2>MN+)/ ) { 
say "IT saw $+{fnameL}y and 4$+{fname2}”; 
现在 可 以 看 到 正确 结果 了 : 


I Saw Fred and Barzney 


-一旦 使 用 了 捕获 标签 ， 就 可 以 随意 移动 位 置 并 加 入 更 多 的 捕获 贺 括 号， 不 会 因为 次 序 变 
化 导致 麻烦 : 

Use 5.010j 

my $names = “Fzred or Barney ; 


计 ( $names =~ m/((?<name2>Nw+) (and|or) 〈?<namel>Yw+))/ ) { 
say “"I Saw $+{fname1} and $+{fname2}”; 
】} 


在 使 用 捕获 标签 后 ， 反 向 引用 的 用 法 也 随 之 有 所 变化 。 之 前 我 们 用 \1 或 者 \g{1} 这 样 的 写 
现在 我 们 可 以 使 用 \g{label} 这 样 的 写法 : 


注 21: ”Perl 也 允许 用 Python 的 语法 (?P<LABEL> ...) 完成 同样 的 功能 。 
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use 5.010; 
my $names =“Fred Flintstone and Wilma Flintstone'; “ 
计 ( $names =~ mV/(?<last_name>\w+) and \w+ \g{last_namej/ ) { 


say "IT Saw $+{flast_namej”; 


】} 

我 们 也 可 以 用 另 一 种 语法 来 表示 反 向 引用 。\kklabel> 等 效 于 \gflabel} [六 221 : 
USe 5.0101j 
my $names = “Fred Flintstone and Wilma Flintstone ; 


if (〈 $names =~ m/(?<last_nanme>\w+) and Nw+ \k<last_name>/ ) { 
Say "IT saw $+{fIast_name}”; 


自动 捕获 变量 
有 三 个 免费 的 捕获 变量 ! 注 231 ， 就 算 不 加 捕获 圆 括号 也 能 使 用 。 听 起 来 不 错 ， 不 过 它们 
的 名 字 不 太 好 记 ， 甚 至 有 点 话 异 。 


虽然 Larry 可 能 不 会 反对 给 它们 取 比 较 正常 的 名 字 ， 像 $azoo 或 fozmidiar， 但 这 些 都 是 
在 你 自己 的 程序 里 可 能 会 用 到 的 名 称 。 为 了 让 普通 的 Perl 程 序 员 在 为 第 一 个 程序 的 第 一 
个 变量 命名 时 不 必 绕 开 Perl 所 有 的 特殊 变量 名 [ 注 241 ，Larry 给 内 置 变量 起 了 一 些 稀奇 古 
怪 的 名 字 ， 也 可 以 说 是 “惊世骇俗 ”的 名 字 。 在 这 里 ， 他 选用 的 是 标点 符号 ，$&、 允 和 
$' 。 它 们 看 起 来 很 奇怪 ， 也 很 丑陋 ， 非 常 诡异 ， 不 过 这 就 是 它们 的 名 字 iE251 。 字 符 串 
里 实际 匹配 模式 的 部 分 会 被 自动 存 进 $& 里 ， 


计 ("Hello there，neighbor”=>” /人 \s(\w+)，/) 





注 22 : 实际 上 ， \k<label> 与 \g{1labe1l} 有 着 细微 差别 。 在 两 个 以 上 的 组 有 同名 标签 时 ， 

kc<label> 和 \g{1abel} 总 是 会 指 代 最 左边 的 那 组 ， 但 \g{Nj} 就 可 以 实现 相对 反 向 引用 。 男 
外 ， 如 果 你 是 Python 的 爱好 者 ， 也 可 以 使 用 (?p=label) 这 样 的 语法 。 

注 23: ， 是 的 ， 你 是 对 的 。 实 际 上 并 没有 什么 免费 的 捕获 ，“ 免 费 ” 的 意思 不 过 是 说 ， 某 些 情况 

”下 可 以 省 略 圆 持 号 罢了 ， 但 它 本 身 还 是 需要 成 本 的 。 不 用 担心 ， 我 们 稍 后 就 会 介绍 它 幕 

后 的 实际 开销 。 

注 24: ”你 仍然 需要 训 开 少数 几 个 传统 的 变量 名 (如 $ARGV) ， 不 过 它们 为 数 不 多 ， 也 部 是 全 大 写 
的 。 所 有 Pen 的 内 置 变量 在 periyar 文 档 里 都 有 介绍 。 

注 25 : 车 你 真 的 无 法 念 受 这 些 奇 怪 的 名 称 ， 可 以 试 试 English 模 块 ， 它 会 为 Perl 所 有 的 奇怪 变量 
赋 子 接近 正常 的 名 称 。 但 使 用 这 个 模块 的 人 一 直 不 多 ;相反 ，Perl 程序 员 已 经 逐渐 爱 上 
了 这 些 由 标点 符号 组 成 的 变量 和 名， 无 论 它 们 看 起 来 有 多 人 么 奇怪 。 
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print "That actually matched “$8& .An ; 
】} 

当 上 面 的 程序 运行 时 ， 会 告诉 我 们 字符 串 里 匹配 的 部 分 是 "there,"” (一 个 空格 、 一 个 单 
词 以 及 一 个 逗号 ) 。 第 一 个 捕获 内 容 存在 和 4 中， 是 具有 5 个 字母 的 单词 there， 但 $8& 里 保 
存 的 是 整个 匹配 区 段 。 


匹配 区 段 之 前 的 内 容 会 存 到 和 里， 而 匹配 区 段 之 后 的 内 容 则 会 存 到 $' 里。 另外 一 个 理解 
方法 是 ， 和 保存 了 正则 表达 式 引 敖 在 找到 匹配 区 段 之 前 略 过 的 部 分 ， 而 $ ' 则 保存 了 字符 
串 中 剩 下 的 从 未 被 匹配 到 的 部 分 。 如 果 将 这 三 个 字符 串 依 次 连接 起 来 ， 就 一 定 会 得 到 原 
来 的 字符 串 : 


计 〈"HelLo there，neighbor”=>” /\s(\w+)，/) { 
print "That was (和 )($8)( 和 Nm; 


程序 运行 时 会 把 字符 串 显示 为 (Hello) (there, ) (neighbor)， 展 现 出 这 三 个 自动 捕获 变量 
的 实际 用 途 。 


这 三 个 自动 捕获 变量 也 都 有 可 能 是 空 字符 串 ， 它 们 的 存续 范围 和 编号 的 捕获 变量 完全 一 
样 。 一 般 而 言 ， 它 们 的 值 会 一 直 持续 到 下 一 次 模式 匹配 成 功 之 前 。 


我 们 之 前 提 过 这 三 个 变量 可 以 免费 使 用 。 不 过 ， 免 费 也 是 有 代价 的 。 在 这 里 的 代价 是 : 
一 日 在 程序 中 任何 部 分 使 用 了 某 个 自动 捕获 变量 ， 其 他 正则 表达 式 的 运行 速度 也 会 变 


慢 [ 注 26] ， 


这 虽 不 会 严重 拖 慢 速 度 ， 但 足以 成 为 隐患 ， 许 多 Per 程序 员 干脆 永远 不 磁 这 些 自动 捕获 
变量 纤 271 。 他 们 会 找 出 变通 办 靶 。 比 如 你 可 以 将 整个 模式 加 上 括号 ， 然 后 以 所 来 代替 、 
各 (当然 ， 你 可 能 需要 调整 模式 的 捕获 编号 ) 。 


如 果 你 用 的 是 Perl 5.10 或 以 上 的 版 本 ， 那 么 就 更 方便 了 。 修 饰 符 /p 只 会 针对 特定 的 
正则 表达 式 开 启 类 似 的 自动 捕获 变量 ， 但 它们 的 名 字 不 再 是 4 ，$& 和 $: ， 而 是 用 
${f^PREMATCH}、$f^MATCH} 和 ${^POSTMATCH} 表 示 。 于 是 ， 之 前 的 例子 可 以 改写 成 : 





注 26: “其实 是 在 每 个 块 的 进入 点 与 离开 点 之 间 ， 所 以 差不多 就 是 每 个 地 方 了 。 
注 27: “虽然 大 部 分 人 没有 真 的 测 过 他 们 的 程序 ， 看 看 改进 过 的 代码 是 否 真 的 会 节省 大 量 时 间 。 
对 他 们 而 言 ， 这 些 变 量 像 是 有 毒 似 的 。 但 我 们 不 能 责怪 他 们 不 做 性 能 测试 ， 许 多 利用 这 
三 个 变量 的 程序 一 周 只 会 多 花费 几 分 钟 的 CPU 时 间 ， 因 此 测试 速度 与 进行 优化 反而 会 浪费 
: 更 多 的 时 间 。 有 既然 如 此 ,为 什么 要 害怕 可 能 额外 多 出 的 几 毫 秒 呢 ? 
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Use 5.010; 

if (〈"Hello there，neighbor”=>~ /As(\w+)，/p) { 

” pzrjint "That actually matched “${^MATCHj .An ; 
】 


计 〈"Hello there，neighbor”=~ 人 \s(\w+)，/p) 《 
print "That was 〈${f^PREMATCH})(${f^MATCH})(${f^POSTMATCH}) .\n"; 
} 8 


这 些 变量 名 看 起 来 有 点 古怪 ， 名 字 前 面 加 上 了 ^， 又 在 外 面 围 上 了 人 花 括号 。 随 着 Perl 的 
进化 ， 用 了 于 特殊 事物 的 名 字 已 经 不 甫 使 用 ， 加 上 开头 的 ^ 的 目的 是 避免 名 称 冲突 〈 实 际 
上 ， 程 序 员 能 够 自由 命名 的 变量 是 不 能 以 ^ 开 头 的 ， 它 是 一 个 非法 字符 ) ， 外 面 围 住 花 
括号 的 目的 是 表示 其 中 的 内 容 是 完整 的 变量 名 。 


捕获 变量 (包括 这 里 介绍 的 自动 捕获 变量 以 及 之 前 介绍 的 有 编号 的 那些 ) 常常 用 于 正则 
表达 式 的 替换 操作 ， 有 关 这 一 点 ， 我 们 可 以 在 第 九 章 进 一 步 学 习 。 


通用 量词 

模式 中 的 量词 (quantirier) 代表 前 面条 目的 重复 次 数 。 到 目前 为 止 ， 我 们 已 经 见 过 三 个 
量词 ,*、+ 以 及 ?。 如 果 这 三 个 量词 都 不 符合 需要 ， 你 还 可 以 使 用 花 括号 〈{}) 的 形式 指 
定 具 体 的 重复 次 数 范围。 


因此 ， 模 式 /a{5,15}/ 可 匹配 重复 出 现 5 到 15 次 的 字母 3。 如 果 a 连 续 出 现 3 次 ， 则 不 匹配 ， 
因为 次 数 太 少 了 ， 若 a 出 现 5 次 ， 就 会 匹配 成 功 ， 出 现 10 次 时 ， 也 会 匹配 成 功 。 因 为 15 是 
上 限 ， 所 以 如 果 a 出 现 20 次 ， 就 只 有 前 15 个 会 匹配 。 


如 果 省 略 第 二 个 数字 但 保留 逗号 ， 则 表示 匹配 次 数 没有 上 限 。 所 以 ，/(fred){3,}/ 这 个 
模式 会 匹配 重复 出 现 3 次 以 上 的 fred (在 每 个 Fred 之 间 不 能 有 空格 等 额外 字符 ) 。 因 为 没 
有 上 限 ， 所 以 即使 字符 串 里 有 88 个 fred， 也 会 匹配 成 功 。 


如 果 同 时 省 略 有 逗号 与 上 限 次 数 ， 那 么 花 括 号 里 的 数字 就 表示 一 个 固定 的 次 数 : 人 
w{8]/7 会 匹配 正好 有 8 个 单词 字符 的 字符 串 〈 或 许 是 大 型 字符 串 里 的 一 部 分 ) ， 而 /,{5} 
chameleon/ 所 匹配 的 就 是 “comma comma comma comma commma chameleon” 。 对 歌 
手 George 来 说 ， 这 是 一 句 很 好 的 歌词 。 (译注 ,此 处 的 “comma” 所 取 的 是 “karma” 
的 谐音 。“Karma Chameleon” 是 歌手 Boy George 在 1983 年 连续 6 周 的 排行 榜 冠 军 单 曲 ， 
其 中 有 一 名 歌词 就 是 “Karma Karma Karma Karma Karma Chaneleon”。) 


事实 上 ， 我 们 之 前 提 到 的 三 个 量词 字符 都 只 是 常用 的 简写 而 已 。 星 号 和 量词 {o,} 相 同 ， 
表示 零 次 或 多 次 。 加 号 相当 于 {1,}， 表 示 一 次 以 上 。 然 后 ， 问 号 也 可 以 写成 {o,1}。 因 为 
这 三 个 简写 几乎 能 满足 绝 大 多 数 的 需求 ， 所 以 平时 不 太 会 需要 花 括 号 量词 。 
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优先 级 

看 完 正 则 表达 式 中 这 一 大 堆 的 元 字符 ， 你 可 能 会 觉得 需要 一 张 记 分 卡 帮助 整理 思路 。 确 
实 有 一 张 优先 级 表 ， 它 告诉 我 们 模式 中 哪些 部 分 的 “紧密 度 ” 最 高 。 不 像 操 作 符 的 优先 
级 表 ， 正 则 表达 式 的 优先 级 表 相 当 简 单 ， 只 有 4 个 级 别 。 我 们 这 里 顺便 复习 一 下 Perl 模 式 
中 使 用 的 元 字符 。 对 于 表 8-1 所 展示 的 优先 级 顺序 ， 大 致 阐 释 如 下 ， 


工 . 


最 高 等 级 是 圆 括 号 (“( )”) ， 用 于 分 组 和 捕获 。 圆 括号 里 的 东西 总 是 比 其 他 东 
西 更 富有 紧密 性 。 

第 二 级 是 量词 ， 也 就 是 重复 操作 符 ， 星 号 (*) 、 加 号 (+) 、 问 号 (?) ， 以 及 使 
用 花 括 号 表示 的 量词 ， 比 如 {5,15}、{3,} 和 {5}。 它 们 都 会 和 它 前 面 的 条 目 紧密 相 - 
连 。 

第 三 级 是 钳 位 和 序列 。 我 们 已 经 介绍 过 的 错位 有 :，\A、\Z、\z、^、$、\b 和 \B[ 导 28]。 

序列 (彼此 相 邻 的 条 目 ) 事实 上 也 是 操作 符 ， 就 算 没 有 使 用 元 字符 也 是 如 此 。 这 就 
是 说 ， 单 词 里 字母 之 间 的 紧密 程度 和 错位 与 字母 之 间 的 紧密 程度 是 相同 的 。 

第 四 级 是 择 一 坚 线 (|) 。 由 于 它 位 于 优先 级 表 底 部 ， 所 以 从 效果 上 来 看 ， 它 会 把 各 
种 模式 拆 分 成 数 个 组 件 。 另 外 ， 择 一 坚 线 的 优先 级 之 所 以 放 在 锁 位 与 序列 的 下 面 ， 

是 因为 我 们 希望 类 似 /fred|barney/ 的 模式 中 ， 单 词 里 的 字母 间 的 紧密 程度 高 于 择 一 
坚 线 。 否 则 ， 该 模式 的 解释 方式 就 成 了 “匹配 fre， 后 面 所 跟 的 字母 必须 是 d 或 者 b， 

然后 再 跟 ar mey”。 所 以 ， 择 一 竖 线 位 于 优先 级 表 的 底部 ， 这 样 单词 里 的 字母 才 会 
紧密 连接 在 一 起 ， 成 为 一 个 整体 。 


最 低级 别 的 称 为 原子 (afoms) 。 正 是 由 这 些 原子 构成 了 大 多 数 基 本 的 模式 ， 比 如 
单独 的 字符 、 字 符 集 以 及 反 引 用 等 等 。 


表 8-1 正则 表达 式 优先 级 


正则 表达 式 特 性 示例 

圆 括号 〈 分 组 或 捕获 ) (…)，(?3)，(?<LABEL>…) 
量词 a#k，a+，a?，afn;m} 

销 位 和 序列 abc，^，$，\A，\b，Nz，\Z 
择 一 紧 线 alb|c 

原子 a，[abc]，\d，\1，\g{2} 








注 28: 


还 有 一 个 \G 锚 位 尚未 介绍 。 
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优先 级 范例 

当 你 需要 解读 相当 复杂 的 正则 表达 式 时 ， 你 就 得 照 着 Perl 的 方式 ， 使 用 优先 级 表 按 部 就 
班 地 进行 分 析 。 

举例 来 说 ，/\Afredlbarney\z/ 大 概 不 会 是 程序 员 想 要 的 模式 。 因 为 择 一 竖 线 的 优先 级 
比较 低 ， 这 样 整个 模式 就 会 被 拆 成 两 半 。 这 个 模式 要 么 匹配 字符 串 开 头 的 fred， 要 么 匹 
配 字符 串 结尾 的 barney。 程 序 员 实 际 想 要 的 多 半 是 八 A(fred|bazrney)\z/， 也 就 是 匹配 只 
包含 fred 或 只 包含 barney 的 每 一 行 往 291 。 那 么 ， 模 式 /(wilma|pebbles?)/ 该 怎么 理解 
昵 》 实际 上 ， 那 个 问号 量词 仅仅 对 接 在 前 面 的 字符 起 作用 【30 ， 所 以 这 个 模式 可 匹配 
到 willma、pebbles 以 及 pebble 这 三 个 字符 捉 ， 或 是 长 字符 串 中 的 一 小 部 分 〈 因 为 模式 中 
没有 销 位 ) 。 


”模式 人/\A(\w+)\s+(\W+)\z/ 可 用 来 匹配 开始 是 一 个 单词 ， 再 来 是 一 些 空白 ， 然 后 又 是 
一 个 单词 前面 或 后 面 没 有 其 他 东西 ) 的 行 。 举 例 来 说 ， 它 大 概 就 是 用 来 匹配 fred 
flintstone 之 类 的 字符 串 。 这 里 的 圆 括号 并 不 是 为 了 分 组 而 存在 ， 可 能 只 是 为 了 把 匹配 
的 字符 串 捕 获 下 来 。 

在 尝试 理解 一 个 很 复杂 的 模式 时 ， 试 着 加 上 一 些 圆 括号 会 对 弄 清 优先 级 有 好 处 。 但 请 记 
住 ， 圆 括号 同时 也 会 有 捕获 的 效果 。 因 此 建议 尽 可 能 用 非 捕 获 圆 括号 来 分 组 。 


还 有 更 多 

虽然 我 们 介绍 了 所 有 日 常 编程 中 会 用 到 的 正则 表达 式 特 性 ， 但 实际 远 远 不 止 这 些 。 有 些 
特性 我 们 放 到 《Intermediate Perl》 一 书 介绍 。 不 过 你 可 以 翻阅 perire、Perireguick 以 及 
pertrefut 文 档 ， 看 看 Perl 在 模式 匹配 方面 还 能 做 哪些 事情 31 。 


模式 测试 程序 


编写 Perl 程 序 的 时 候 ， 每 个 程序 员 都 免不了 要 使 用 正则 表达 式 ， 但 有 时 候 很 难 轻易 看 出 
一 个 模式 能 做 什么 事 。 而 且 常 常会 发 现 ， 人 要 不 
就 是 开始 匹配 的 位 置 早 些 或 晚 些 ， 要 不 就 是 根本 无 法 匹配 。 


注 29: 并且， 也 许字 符 串 结尾 还 有 一 个 换行 符 ， 就 像 之 前 介绍 \z 锚 位 时 提 到 的 。 
注 30:; “因为 在 pebbles 里 ， 问 号 量词 与 字母 s 间 的 连接 要 比 5 与 其 他 字母 的 连接 来 得 紧密 。 


注 31: “并且 看 看 CPAN 上 的 YAPE: :Regex: :Explain 模 块 ， 这 是 一 个 用 英语 解 痛 正 则 表达 式 含义 的 
工具 。 





162 | 第 八 章 


下 面 这 个 程序 非常 实用 ， 可 用 于 检测 某 些 字符 串 是 否 能 被 指定 模式 匹配 以 及 在 什么 位 置 
上 匹配 [ 注 32] ， 
、 提 1VusYVbinVper] 
while (<>) { # 每 次 读 一 行 输入 
chompj; - 
i 诸 〔/YOUR_.PATTERN_GOES_HERE/) { 
print “Matched: | 和 <$8>$ An"; # 特殊 捕获 变量 
} else { 
print "No match: |$_|Nm ; 
】 


】 


这 个 模式 测试 工具 是 给 程序 员 使 用 的 ， 而 不 是 给 最 终 用 户 ， 你 一 看 便 知 分 晓 ， 因 为 
并 设 有 提示 符 ， 也 没有 用 法 说 明 。 它 会 把 所 有 输入 一 行 行 读 进来 ， 然 后 以 你 在 YOUR_ 
PATTERN_GOES_HERE 指 定 的 模式 进行 匹配 。 如 果 该 行 匹 配 模式 ， 就 会 利用 三 个 特殊 的 捕获 
“ 变量 (和 、 昭 和 $' ) 展示 实际 的 匹配 结果 [入 3 。 假 设 你 使 用 的 模式 是 /match/， 而 输入 
的 字符 串 是 beforematchafter ， 那 么 你 会 看 到 的 程序 输出 就 是 |beforematchy>afterl， 尖 
括号 里 面 的 内 容 是 字符 串 匹 配 模式 的 部 分 。 如 果 结 果 跟 你 预想 的 不 一 样 ， 马 上 就 可 以 看 
出 来 。 


习题 
以 下 习题 答案 参见 第 320 页 上 的 “第 八 章 习 题解 答 ” 一 节 。 


有 几 道 题 需要 用 到 本 章 给 出 的 模式 测试 程序 。 你 当然 可 以 自行 输入 该 程序 源 代 码 ， 但 要 
小 心 不 要 打 错 标点 符号 。 当 然 你 也 可 以 上 网 ， 访 问 我 们 的 网 站 /ztp :Wwww.1earmain8g-pe 站 . 
com 自 行 下 载 [ 往 34] 。 


1 [8] 利 用 模式 测试 程序 ， 写 个 模式 ， 使 它 能 匹配 match 这 个 字符 串 。 你 可 以 测试 一 下 
字符 串 beforematchafter， 和 看 是 否 会 正确 显示 匹配 到 的 部 分 以 及 前 后 的 部 分 ? 


2 [7] 利 用 模式 测试 程序 ， 写 个 模式 ， 使 其 能 够 匹配 任何 以 字母 a 结 尾 的 单词 《以 \w 组 


注 32: ”如果 你 正在 阅读 的 不 是 电子 书 ， 无 法 复制 粘贴 的 话 ， 请 访问 本 书 网 站 Pittp:Wwww.iearnin8g- 
PerLcom ， 到 下 载 区 自行 下 载 这 段 程 序 的 源 代码 。 

注 33: “测试 正则 表达 式 是 否 正常 如 期 工作 的 时 候 ， 并 不 需要 关心 性 能 问题 。 不 管 你 用 的 是 Perl 
. S$.10 之 前 的 版 本 还 是 之 后 的 版 本 ， 我 们 都 项 望 这 段 程序 能 正常 工作 ， 所 以 捕获 变量 也 是 
按照 以 往 老 式 写法 表示 。 

注 34: ”如果 你 真 的 要 自己 键入 该 程序 源 代 码 ， 请 记 住 ， 反 引号 字符 (`) 和 单 引号 字符 (') 是 
完全 不 一 样 的 。 在 全 尺寸 键 表 上 (至 少 在 美式 键盘 布局 上 ) ， 反 引号 键 位 于 数字 1 键 的 左 
边 。 
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成 的 单词 ) 。 此 模式 是 否 能 够 匹配 到 wilma? 是 否 无 法 匹配 到 barney? 此 模式 是 否 能 
够 匹配 到 Mrs .MilmaFlintsone? 还 有 wilmagfred 呢 ? 把 第 七 章 里 的 样本 文本 文件 拿 
到 这 里 测 测 看 〈 并 把 这 些 测 试 字符 串 加 到 读 文本 文件 里 ) 。 


3， [5] 修 改 上 题 程序 ， 使 其 在 匹配 到 以 a 结 尾 的 单词 的 同时 也 将 其 存储 在 4 里 。 接 着 修 
改 程序 的 输出 ， 让 变量 的 内 容 出 现在 单 引 号 中 ， 例 如 : $4 contains “WiLma'。 


4. [5] 修 改 上 题 程序 ， 使 用 命名 捕获 而 不 是 $1 这 样 的 老 办 法 。 接 着 修改 程序 输出 ， 让 
标签 名 字 出 现在 结果 中 ， 例 如 : 'word' contains' Wilma'。 

5. [5] 附 加 题 : 修改 上 一 题 的 程序 ， 使 其 在 定位 到 以 a 结 尾 的 单词 后 ， 最 多 再 将 之 后 的 
5 个 字符 〈 如 果 有 那么 多 的 话 ) 捕获 至 一 个 独立 的 内 存 变 量 。 修 改 程序 输出 ， 把 所 用 
到 的 这 两 个 内 存 变 量 都 输出 来 。 假 设 你 输入 的 字符 串 是 I saw WiIma yesterday， 那 
么 后 面 取 到 的 5 个 字符 就 是 “yest”。 如 果 你 输入 的 是 I,Wilmal， 那 么 第 二 个 内 存 变 
量 的 内 容 只 会 有 一 个 字符 。 看 看 你 的 模式 是 否 还 可 以 成 功 匹 配 wilma 这 个 简单 的 字符 
串 ? 

6 [5] 写 个 新 程序 (不 是 之 前 给 出 的 测试 程序 ) ， 输 出 其 输入 中 以 空白 结尾 的 行 ( 换 
行 符 不 算 ) 。 输 出 的 时 候 ， 在 行 妊 多 加 一 些 记号 ， 这 样 比较 容易 看 出 空白 符 。 
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第 九 章 


用 正则 表达 式 处 理 文本 


正则 表达 式 也 可 用 于 修改 文本 。 之 前 我 们 只 是 介绍 如 何 利用 正则 表达 式 进行 模式 匹配 ， 
现在 我 们 来 看 如 何 利用 正则 表达 式 的 模式 定位 部 分 字符 串 并 做 相应 修改 。 


用 Ss/// 进 行 替 换 
如 果 把 m// 模 式 匹 配 (pattern match) 想象 成 文字 处 理 器 的 “查找 ”功能 ， 那 么 s/// 蔡 换 


(substitution) 操作 符 就 是 “查找 并 替换 ”功能 。 此 操作 符 只 是 把 存在 变量 让 1 中 匹配 
模式 的 那 部 分 内 容 蔡 换 成 另 一 个 字符 串 ， 
$_ = "He's out bowling with Barney tonight. ;- 
S/Barney/Fred/; # 把 Batney 替换 为 Fred 
print “$_ An ; 
如 果 匹 配 失败 ， 则 什么 事 都 不 会 发 生 ， 变 量 也 不 受 影响 ， 


# 接着 之 前 的 代码 ，$_ 现 在 为 “He's out bowling with Fred tonight.” 
s/Wilma/Betty/; # 试图 用 Betty 赫 换 Ntlma (将 会 失败 ) 


当然 ， 模 式 字符 串 与 替换 字符 串 还 可 以 更 加 复杂 。 下 面 的 替换 字符 串 用 到 了 第 一 个 捕获 
变量 ， 也 就 是 和， 模式 匹配 时 会 对 它 赋 值 : 


s/wWith 〈(\w+)/agajinst $1'Ss team/; 
print "$_\n"; # 打印 "He's out bowling against Fred's team tonjight 


注 1;: 不 像 mV// 可 以 匹配 任何 字符 串 表 达 式 ，S/// 修 改 的 数据 必须 是 预先 存放 在 某 个 变量 中 的 。 
这 个 变量 一 般 位 于 该 操作 符 的 左边 ， 所 以 也 称 为 直 值 (Lvalue) 。 一 般 来 说 ， 左 值 都 是 
某 个 变量 ， 但 其 实 不 管 是 什么 ， 只 要 能 放 在 赋值 语 向 左边 的 东西 也 都 可 以 。 


165 


这 里 还 有 一 些 赫 换 操 作 的 例子 ， 不 过 仅仅 出 于 示范 的 目的 ， 实 际 使 用 时 一 般 不 会 出 现 这 一 
么 多 互 不 相关 的 替换 操作 : 


可 -= “green scaly dinosaur"i . 

SU/(W+) (WwW+)/42，$171; # 替换 后 为 "scaly，8Breen dinosaur" 
5/^/huge，/) # 替换 后 为 "huge，scaly，8gTeen dinosaur"” 
Ss/，.*een//; # 空 灰 换 : 此 时 为 "huge dinosauz" 
S/VgreenyVIied/; # 匹配 失败 : 仍 为 "huge dinosaur” 
Ss/AW+$7( 拉 1)$87; # 赫 换 后 为 "huge (huge 1)dinosaur” 
SA/\S+(INN+)/$1 7 # 替换 后 为 "huge (hugel) dinosaur" 
s/huge/giganticy/; # 替换 后 为 "8igantic 《hugel) dinosauz"” 


5s/// 返 回 的 是 布尔 值 ， 替 换 成 功 时 为 真 ， 否 则 为 假 : 


$_ =“"fred flintstone"; 
if 〈s/fred/wjilma/y) 1 

przrint "Successful1y Teplaced fred with wilmalNn”; 
】 


用 /g 进 行 全 局 替换 
在 前 面 的 例子 中 你 可 能 注意 到 了 ， 即 使 有 其 他 可 以 替换 的 部 分 ，s/// 也 只 会 进行 一 次 赫 
换 。 当 然 ， 这 只 不 过 是 默认 的 行为 而 已 。/g 修 饰 符 可 让 s/// 进 行 所 有 可 能 的 、 不 重复 
的 [ 注 2] 替换 ， 

$_ = “home，sweet home|"; 


”， S/home/cave/8; 
print "$ \n"; # 打印 "cave，Ssweet cavel" 


一 个 相当 常见 的 全 局 替换 是 缩减 空白 ， 也 就 是 将 任何 连续 的 空白 转换 成 单一 空格 : 


$_ = "Input data\t may have extIa Whitespace。; 

SA\S+/ /g; # 现在 它 变 成 了 "Input data may have extra Whitespace." 
每 次 只 要 我 们 提 到 如 何 缩减 空 扬 ， 所 有 的 学 生 都 想 知道 ， 如 何 删除 开头 和 结尾 的 空白 。 
其 实 简单 到 只 要 两 步 : 

S/^\s+//; # 将 开头 的 空白 替换 成 空 字符 串 

SA\s+$//; # 将 结尾 的 空白 替换 成 空 字符 串 

精简 到 一 步 的 写法 则 是 使 用 择 一 匹配 的 紧 线 符号 并 配合 /8g 修 饰 符 ， 但 这 么 写 其 实 会 运 
行 得 稍微 慢 一 点 点 ， 至 少 在 编写 本 书 时 还 是 如 此 。 正 则 表达 式 的 引擎 会 不 断 改进 ， 如 
果 要 进一步 了 解 如 何 写 出 更 快 (或 更 慢 ) 的 模式 ， 可 参阅 Jeffery Friedl 写 的 《Mastering 
Regular Expressions》 (〈(O'Reilly) 一 书 ， 


注 2: 不 重复 是 因为 每 次 都 会 从 最 近 一 次 替换 结束 的 地 方 开 始 新 的 匹配 。 


s/^\s+r|\s+$//18; ，# 去 除开 头 和 结尾 的 空白 符 


不 同 的 定 界 符 
就 像 m// 和 qw// 一 样 ， 我 们 也 可 以 改变 5/// 的 定 界 符 。 但 由 于 替换 运算 会 用 到 三 个 定 办 
符 ， 所 以 情况 又 有 点 不 同 。 
对 于 一 般 没有 左右 之 分 的 〈 非 成 对 ) 字符 ， 用 法 便 跟 使 用 斜 线 一 样 ， 只 要 重复 三 次 即 
可 。 下 面 ， 我 们 以 井 号 [ 信 3] 作为 定 界 符 : 

S#^https :7V/#http :7/#; 
但 是 ， 如 果 使 用 有 左右 之 分 的 成 对 字符 ， 就 必须 使 用 两 对 : 一 对 包 住 模式 ， 一 对 包 住 替 
换 字符 串 。 而 且 在 这 种 情况 下 ， 包 住 字 符 串 的 定 界 符 和 包 住 模式 的 定 界 符 不 必 相 同 。 事 
实 上 ， 字 符 串 甚至 可 以 用 非 成 对 的 定 界 符 。 所 以 下 面 三 行 奉 换 操作 的 写法 虽然 不 同 ， 效 
果 都 是 一 致 的 : 

sffredj{fbarney}; 


s[fred](barney); 
S<fred>#barney##; 


可 用 蔡 换 修饰 符 
除了 /g 修 饰 符 之 外 { 注 4 ， 我 们 还 可 以 把 用 在 普通 模式 匹配 中 的 /1、/x 以 及 /s 修 饰 符 用 
在 替换 操作 中 (联合 使 用 的 时 候 无 需 关心 前 后 顺序 ) ， 


S 丰 hilma#wilma#gi;y # 将 所 有 的 NiLmA 或 者 NILMA 一 律 奉 换 为 Nilma 
s{f_END_.*}{f}ys;  # 将 _END_ 标记 和 它 后 面 的 所 有 内 容 都 删 掉 


绑 定 操作 符 


就 像 在 说 明 m// 时 提 到 的 ， 我 们 可 以 用 绑 定 操作 符 为 s/// 选 择 不 同 的 替换 目标 : 


4file_name =>~ S#^.#/##Ss; # 将 $file_name 中 所 有 的 Unix 风 格 的 路 径 全 部 去 除 


无 损 蔡 换 

如 果 需 要 同时 保留 原始 字符 串 和 替换 后 的 字符 串 ， 该 怎么 办 ? 传统 的 做 法 是 先 复制 一 份 

搁 贝 后 再 替换 ; 

注 3: 对 我 们 的 英国 朋友 致 亚 ， 因 为 并 号 与 英镑 都 念 成 “pound”! 虽然 在 Perl 里 ， 并 号 一 般 用 
于 注释 开头 ， 但 当 解析 器 知道 要 等 待 某 个 定 界 符 时 ， 井 号 就 不 会 被 视 为 注释 开头 。 紧 于 
在 代表 开始 替换 的 5 字符 之 后 的 并 号 ， 就 是 其 中 一 个 例子 。 

注 4: 即使 现在 的 定 界 符 不 是 侍 线 ， 我 们 也 会 将 修饰 符 写成 /ii。 
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my $original = "Fred ate 1 Tib ; 
my $copy = $original; 
$copy =” S/\d+ Tibs?/10 Tibsy/; 


也 可 以 把 后 面 两 步 并 人 一步， 先 做 赋值 运算 ， 然 后 针对 运算 结果 进行 替换 ， 
(my $copy = $original) =” s/ 人 \d+ Tibs?/10 Tibsy/; 


看 起 来 确实 叫 人 眼花 统 乱 ， 因 为 很 多 人 都 会 忘记 其 实 左边 的 赋值 运算 就 好 比 是 普通 的 字 
符 串 ， 实 际 做 替换 的 是 变量 $copy。Perl 5.14 增 加 了 一 个 /z 修 饰 符 ， 专 门 用 于 解决 这 类 问 
题 。 原 先 s/// 操 作 完 成 后 返回 的 是 成 功 替换 的 次 数 ， 加 上 /r 之 后 ， 就 会 保留 原来 字符 串 
变量 中 的 值 不 变 ， 而 把 替换 结果 作为 替换 操作 的 返回 值 返回 


Use 5.014; 
my $copy = $original =>” SA 八 d+ Tibs?/10 zibs/z; 


形式 上 看 起 来 和 之 前 的 例子 差别 不 大 ， 只 不 过 拿 掉 了 括号 喷 了。 但 在 这 个 例子 中 ， 运 算 
顺序 却 是 相反 的 ， 先 做 替换 ， 再 做 赋值 。 


大 小 写 转换 
在 替换 运算 中 ， 常 常 需要 把 所 替换 的 单词 改写 成 全 部 大 写 〈 或 全 部 小 写 ) 。 用 Perl 很 容 


易 就 能 做 到 ! 坟 5 ， 只 要 使 用 特定 的 反 和 斜 线 转 义 符 就 行 了 。\U 转 义 符 会 将 其 后 的 所 有 字 
符 转 换 成 大 写 的 : 


$_ = "JI saw 8Bazney With Fred.; 
s/(fred|barney)/\U$1/8gi;j # $ 现在 成 了 "I saw BARNEY with FRED." 


类 似 地 ，\L 转 义 符 会 将 它 后 面 的 所 有 字符 转换 成 小 写 的 。 沿 用 前 面 的 例子 : 
s/(fred|barney)/ 作 L$1/8i; # $ 现在 成 了 “TI saw baxrney with fred." 


默认 情况 下 ， 它 们 会 影响 之 后 全 部 的 〈 替 换 ) 字符 串 。 你 也 可 以 用 \E 关 闭 大 小 写 转换 的 
功能 ， 


s/(NAw+) with 〈(\w+)/NAU$2AE with $1/i # $ 赤 换 后 为 “TI saw FRED with baxrney。” 
使 用 小 写 形式 (1 与 \u) 时 ， 它 们 只 会 影响 紧 跟 其 后 的 第 一 个 字符 ， 


s/(fred|bazrney)/\u$17ig; # $_ 和 蔡 换 后 为 "IT saw FRED with Bazney,” 
注 5; 请 重 温 一 下 第 八 章 中 “选择 一 种 字符 解释 方式 ”一 节 里 提 到 的 所 有 誉 告 。 
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你 甚至 可 以 将 它们 并 用 。 同 时 使 用 \u 与 \L 来 表示 “后 续 字符 全 部 转 为 小 写 的 ， 但 首 字母 
大 写 ” { 注 6] 


s/(fredjbarney)/AuNL$1/i8; # $_ 现在 成 了 “"I saw Fred with Barney." 


附带 一 提 ， 虽然 这 里 介绍 的 是 替换 时 的 大 小 写 转换 ， 但 它们 同样 可 用 在 任何 双 引 号 内 的 
字符 串 中 


pzint "Hello，\LXu$name\E，would you like to play 3a BamezNn ; 


split 操 作 符 


另 一 个 使 用 正则 表达 式 的 操作 符 是 sp1it， 它 人 根据 给 定 的 模式 拆 分 字符 串 。 对 于 使 用 
制 表 符 、 冒 号 、 空 白 或 任意 符号 分 隔 不 同 字段 数据 的 字符 串 来 说 ， 用 这 个 操作 符 分 解 提 
和 
就 可 以 用 split 分 解数 据 。 它 的 用 法 如 下 ; 


my @fields =. 5plit /separator/，$string; 


这 里 的 sp1it 操 作 符 [ 纤 8] 用 拆 分 模式 扫描 指定 的 字符 串 并 返回 字段 (也 就 是 子 字符 串 ) 
列表 。 期 间 只 要 模式 在 某 处 匹配 成 功 ， 该 处 就 是 当前 字段 的 结尾 、 下 一 个 字段 的 开头 。 
所 以 ， 任何 匹 配 模式 的 内 容 都 不 会 出现 在 返回 字段 中 。 下 面 就 是 典型 的 以 冒号 作为 分 隔 
符 的 sp1it 模 式 : ; 


my @fields = split /:/，"abc:def:g:h"; # 得 到 《〈"abc"，"def"，"g"，"h") 
如 果 两 个 分 隔 符 连 在 一 起 ， 就 会 产生 空 字段 : 
my efields = Split /:/，"abc:def::g:h"j # 得 到 ("abc"，"def"，””，"g"，"h) 
这 里 有 个 规则 ， 它 乍 看 之 下 很 古怪 ， 但 很 少 造成 问题 : sp1it 会 保留 开头 处 的 空 字段 ， 
却 会 舍弃 结尾 处 的 空 字段 。 例 如 [ 往 9] ， 
注 6: N\L 和 AN\u 哪 个 放 前 面 都 可 以 。Larry 认 为 可 能 有 人 会 把 它们 凑 倒 显 序 ， 但 一 般 这 么 写 都 是 想 
要 首 字母 大 写 ， 其 余 小 写 的 效果 ， 所 以 他 让 Perl 能 兼容 这 种 情况 。 说 实话 ， 他 真是 个 好 心 
人 。 
注 7 但 “以 去 号 分 隔 的 值 ” (一 般 称 为 CSV 文 件 ) 除外 。 用 sp1it 处 理 这 类 文件 往往 叫 人 头痛 
不 已 。 最 好 还 是 借助 CPAN 上 专门 的 模 决 Text: :CSV 来 做 这 项 工作 。 
注 8: 是 一 个 操作 符 ， 尽 管 它 的 行为 看 来 像 一 个 丞 数 ， 而 且 大 家 通常 都 把 它 叫 做 函数 。 不 
人 
注 9: 这 只 是 默认 行为 ， 目 的 是 为 了 提高 效率 。 若 你 担心 失去 结尾 处 的 空 字段 ， 只 要 以 -1 作为 
sp1 刘 的 第 三 个 参数 就 能 保留 它们 了 。 相 关 细 节 请 参阅 perlfiurc 文 档 。 
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my @fields = split /1/，":::aib:c::: "3 # 得 到 (””，””， ”ab"，"c”) 
利用 split 的 /\s+/ 模 式 根据 空白 符 分 隔 字 段 也 是 比较 常见 的 做 法 。 该 模式 把 所 有 连续 空 
白 都 视 作 单个 空格 并 以 此 切 分 数据 ， 


my $some_input =“This is a \t test.NAm ; 
my @ar8gs = split / 八 s+/，$some_jinput; # 得 到 (〈"This"， "is"，"a"， "test。) 


软 认 sp]lit 会 以 空白 符 分 喇 $_ 中 的 字符 串 : 

my @fjelds- = split;j ## 等 效 于 split /st/，$ 
这 几乎 就 等 于 以 八 s+/ 为 模式 ， 只 是 它 会 省 略 开头 的 空 字段 。 所 以 ， 即 使 该 行 以 空白 开 
头 ， 你 也 不 会 在 返回 列表 的 开头 处 看 到 空 字段 。 若 你 想 以 这 种 方式 来 分 解 用 空格 分 隔 的 字 


符 串 ， 则 可 以 用 一 个 空格 来 作为 模式 : split' ',$other_string。 用 一 个 空格 来 作为 模式 
是 sp1it 的 特殊 用 法 。 


一 般 来 说 ， 用 在 sp1it 中 的 模式 就 像 之 前 看 到 的 这 样 简单 。 但 如 果 你 用 到 更 复杂 的 模 
式 ， 请 避免 在 模式 里 使 用 捕获 圆 括号 ， 因 为 这 会 启动 所 谓 的 “分 隔 符 保留 模式 ” (详情 
请 参考 perlPurnc 文 档 ) 。 如 果 需 要 在 模式 中 使 用 分 组 匹配 ， 请 在 sp1it 里 使 用 非 捕获 圆 括 
号 (?:) 的 写法 ， 以 避免 意外 。 


join 函数 
join 函数 不 会 使 用 模式 ， 它 的 功能 与 sp1it 恰 好 相反 ， split 会 将 字符 串 分 解 为 若干 片段 
( 子 字 符 串 ) ， 而 join 则 会 把 这 些 片段 接合 成 一 个 字符 串 。join 函 数 的 用 法 如 下 
my $Tesult = join $glue，8@piecesj 


你 可 以 把 join 的 第 一 个 参数 理解 为 胶水 〈glue) ， 它 可 以 是 任意 字符 串 。 其 余 参 数 则 是 一 
串 片 段 。join 会 把 胶水 涂 进 每 个 片段 之 间 并 返回 结果 字符 串 : 


my $x = join “":"，4，6，8，10，12j 提 $X 为 "4:6:8:10:12"” 


在 这 个 例子 中 ， 我 们 有 5 个 条 目 ， 所 以 最 后 接合 而 成 的 字符 串 只 有 4 个 冒号 。 也 就 是 说 ， 
有 4 层 胶水 。 胶 水 只 在 两 个 片段 中 间 出 现 ， 不 在 之 前 也 不 在 其 后 。 所 以 胶水 的 层 数 会 比 
列表 中 的 条 上 且 数 少 一 个 。 
换 句 话说 ， 列 表 至 少 要 有 两 个 元 素 ， 否 则 胶水 无 法 涂 进 去 : 

my $y = join "foo"，"”bar'"; # 只 有 一 个 "bar"， 这 里 不 会 起 作用 


my @enmpty; # 空 数 组 
my $empty = join “baz"，@empty; 六 没有 元 素 ， 所 以 得 到 一 个 空 字符 串 
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使 用 上 面 的 $x， 我 们 可 先 分 解 字符 串 ， 再 用 不 同 的 定 界 符 将 它 接 起 来 : 


my @values = Split /:/，$xj;j # @values 为 (4，6，8，10，12) 
my $z = join “"-"，@valuesj  # $z 为 "4-6-8-10-12” 


虽然 split 和 join 合作 无 间 ， 但 请 别 忘 了 join 的 第 一 个 参数 是 字符 串 ， 而 不 是 模式 。 


列表 上 下 文中 的 mV// 


在 使 用 sp1it 时 ， 模 式 指定 的 只 是 分 隔 符 : 分 解 得 到 的 字段 未 必 就 是 我 们 需要 的 数据 。 
有 时 候 ， 指 定 想 要 留 下 的 部 分 反而 比较 简单 。 


人 的 区 那么 返回 的 是 所 
有 捕获 变量 的 列表 ， 如 果 匹 配 失败 ， 则 会 返回 空 列 表 : 

$_ =“Hello there，neighborl”; 

my($first，$second，$thizd) = /(\S+) 〈\S+)，(\S+)V/; 

print "$second is my $thirdNn"; 
如 此 就 能 给 那些 匹配 变量 起 好 记 的 名 字 ， 并 且 下 一 次 模式 匹配 时 仍 能 使 用 这 些 变量 。 
(注意 ， 由 于 代码 中 并 未 用 到 =* 绑 定 操 作 符 ， 所 以 该 模式 匹配 默认 是 针对 $_ 进 行 的 。) 
之 前 在 s/// 的 例子 中 看 到 的 /g 修 饰 符 同样 也 可 以 用 在 m// 操 作 符 上 ， 其 效果 就 是 让 模式 能 


够 匹配 到 字符 串 中 的 多 个 地 方 。 下 面 的 例子 中 有 一 对 圆 括号 的 模式 会 在 每 次 匹配 成 功 时 
返回 一 个 捕获 字符 串 : 


my $text =“"Fred dropped a 5 ton granite block on MT. 9Slate"; 
my @words = ($text => /([a-z]+)/ig7)5 

pTrint "Result: @wordsN\n ; 

# 打印 ， Fred dropped a ton granite block on Mr Sjlate 


这 就 好 比 是 反 过 来 用 sp1it: 正则 模式 指定 的 并 非 想 要 去 除 的 部 分 ， 反 而 是 要 留 下 的 部 
分 5 


事实 上 ， 如 果 模 式 中 有 多 组 圆 括 号 ， 那 么 每 次 匹配 就 能 捕获 多 个 字符 串 。 假 设 我 们 想 把 
一 个 字符 串 变 成 哈 希 ， 就 可 以 这 样 做 ; 


my $data =“Barney Rubble Fred Flintstone Wilma FlLintstone”"; 
my %last_name =〈$data =~ /(\w+)NSs+(w+)/8); 


每 次 模式 匹配 成 功 ， 就 会 返回 一 对 被 捕获 的 值 ， 而 这 一 二 
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更 强大 的 正则 表达 式 


在 几乎 读 了 三 章 有 关 正 则 表达 式 的 内 容 之 后 ， 你 现在 应 该 明白 ， 这 已 经 成 为 一 项 深入 
Per] 核 心 的 强大 功能 。 但 不 止 如 此 ，Perl 开 发 人 员 还 在 加 入 更 多 功能 ， 你 会 在 接 下 来 的 
一 节 看 到 其 中 最 重要 的 那些 。 同 时 你 也 会 看 到 正则 表达 式 引 擎 更 有 趣 的 内 部 运作 机 制 。 


非 贪 楚 量词 

目前 为 止 ， 我 们 (在 第 七 章 ) 看 到 的 4 个 量词 全 部 都 是 贪 禁 (8reedy) 量词 。 也 就 是 说 ， 
在 保证 整体 匹配 的 前 提 下 ， 它 们 会 尽量 匹配 长 字符 串 ， 实 在 不 行 才 会 吐出 一 点 。 比 如 以 
/fred.+barney/ 匹 配 fred and barney went bowling last night 这 个 字符 串 。 我 们 可 以 
一 眼 就 看 出 来 会 匹配 成 功 ， 但 现在 我 们 要 深入 了 解 一 下 匹配 的 过 程 中 到 底 发 生 了 什么 事 
情 生 !) 。 首 先 ， 模 式 中 的 fred 部 分 将 会 逐 字 匹 配 与 其 相同 的 字符 串 。 模 式 的 下 个 部 分 
是 .+， 它 会 匹配 换行 符 之 外 的 所 有 字符 (至 少 一 次 ) 。 但 加 号 是 个 贪 禁 量 词 ， 它 会 尽量 
匹配 最 多 的 字符 串 。 所 以 ， 进 行 到 此 ， 它 会 一 口气 知 掉 字符 串 剩 下 的 所 有 内 容 ， 一 路 到 
最 后 的 night。 《看 到 这 里 你 大 概 党 得 要 出 什么 意外 了 ， 不 过 故事 还 设 讲 完 呢 。) 


现在 轮 到 模式 中 的 barney 部 分 ， 但 它 已 经 没 办 法 进行 匹配 ， 因 为 刚才 已 经 进行 到 字符 串 
的 末尾 。 由 于 .+ 就 算 少 匹配 一 个 字符 也 算 匹 配 成 功 ， 所 以 它 打算 往 后 退 一 步 看 看 ， 于 是 
吐出 最 后 匹配 到 的 字符 t。 《虽然 它 很 贪 禁 ， 不 过 为 了 顾全 大 局 ， 并 让 整体 模式 尽 可 能 匹 
配 成 功 ， 所 以 就 算 自己 没有 匹配 到 全 部 字符 串 也 可 以 忍受 。) 


现在 又 轮 到 barney 部 分 进行 匹配 ， 但 还 是 无 法 成 功 。 因 此 ，.+ 再 次 吐出 一 个 字符 h 试 试 
看 。 就 这 样 一 个 字符 一 个 字符 地 ，,.+ 匹 配 的 部 分 一 路 减少 到 了 baxrney 之 前 。 此 刻 ， 模 式 
中 的 barney 部 分 终于 能 够 匹配 成 功 ， 于 是 整个 模式 也 就 匹配 成 功 了 。 


正则 表达 式 引 擎 会 一 直 进 行 上 述 的 回 庆 (backtracking) 动作 ， 不 断 地 以 不 同 的 方式 调整 
模式 匹配 的 内 容 来 适应 字符 串 ， 直 到 最 终 找到 一 个 整体 匹配 成 功 的 为 止 ， 要 是 直到 最 后 
都 找 不 到 就 宣告 失败 起 上 。 从 这 个 例子 我 们 可 以 知道 回 淹 的 动作 可 能 非常 繁 玉 ， 因 为 
量词 圆 回 知 下 的 字符 串 太 长 ， 于 是 正则 表达 式 引擎 不 得 不 使 它 逐 个 吐出 来 。. 





注 10: “正则 表达 式 引 擎 会 进行 一 定 程度 的 优化 ， 使 得 事实 与 这 里 描述 的 细节 并 不 完 爹 一 样 ， 而 优 
化 的 方式 也 随 着 Perl 的 改版 不 断 改进 。 但 就 功能 而 言 ， 你 不 会 感觉 到 事实 与 描述 的 有 差异 。 
如 果 你 想 知 道 事情 的 真相 ， 那 么 你 得 读 最 疡 版 的 源 代 码 。 如 果 找 到 缺陷 ， 请 提交 补丁 。 

注 11: 事实 上 ， 有 些 正 则 引擎 会 党 试 每 种 可 能 ， 就 算 已 经 确定 匹配 成 功 ， 也 会 继续 找 下 去 。 不 
过 Perl 的 正则 表达 式 引擎 只 专注 于 模式 是 否 能 够 成 功 匹配 ， 所 以 只 要 找到 一 个 成 功 匹 本 
的 就 算 完 成 任务 ， 不 再 细 完 下 去 。 有 具体 细 节 可 以 参考 Jeffrey Fried1 的 《Mastering Regular 
Expressions》 (〈(O"Reilly) 一 书 。 
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不 过 ， 每 个 贪 禁 量 词 都 有 一 个 非 贪 禁 版 本 。 以 加 号 〈+) 为 例 ， 我 们 可 以 改 用 非 贪 禁 的 量 
词 +?， 这 除了 表示 一 次 或 多 次 〈 也 就 是 加 号 本 身 的 意义 ) 之 外 ， 同 时 要 求 能 匹配 的 字符 串 
越 短 越 好 ， 而 不 再 是 越 长 越 好 。 现 在 我 们 把 刚才 的 模式 改 成 /fred.+?barney/， 看 看 这 个 
新 量词 是 如 何 运 作 的 。 


模式 中 的 fred 还 是 老 样子 ， 匹 配 字 符 串 开 头 部 分 。 但 这 次 模式 中 的 下 一 个 部 分 换 成 
了 .+?， 它 会 匹配 一 个 以 上 的 字符 ， 但 越 短 越 好 ， 也 就 是 最 好 只 匹配 一 个 字符 ， 所 以 它 匹 
配 的 部 分 是 fred 后 面 的 空 据 符 。 接 下 来 出 现 的 模式 是 parney， 但 就 目前 的 位 置 而 言 ,. 匹 
配 会 失败 〈 因 为 当前 位 置 上 开始 的 字符 串 是 and barney……) 。 于 是 .+? 模 式 又 很 不 情 
愿 地 多 匹配 了 一 个 字符 a， 然 后 把 控制 权 交 给 之 后 的 模式 重 试 。 但 barney 还 是 匹配 失败 ， 
所 以 .+? 只 好 再 吞 下 一 个 字符 n， 就 这 样 一 直 进行 下 去 。 直 到 .+? 匹 配 了 5 个 字符 之 后 ， 
barney 模 式 终于 能 够 匹配 成 功 ， 于 是 整个 模式 也 就 匹配 成 功 了 。 


其 实 还 是 有 一 些 回 湖 动作 的 ， 但 这 次 正则 表达 式 引 警 的 回 淹 次 数 比较 少 ， 在 速度 上 应 该 
是 大 有 改善 才 对 。 不 过 ， 这 是 在 barney 跟 fred 都 离 得 很 近 的 情况 下 才 会 成 立 。 如 果 要 处 
理 的 数据 都 是 fred 在 字符 串 开 始 处 ，barney 在 字符 串 末 尾 的 话 ， 那 么 选用 贪 焚 量 词 反 而 
会 比较 快 。 所 以 最 终 的 速度 其 实 取决 于 正则 表达 式 要 处 理 的 数据 。 


非 贪 禁 量 词 并 不 只 跟 效 率 有 关 。 尽 管 贫 禁 版 本 可 以 成 功 匹 配 的 字符 串 ， 非 贪 禁 版 本 也 同 
样 可 以 匹配 成 功 (匹配 失败 的 情况 亦 然 ) ， 但 它们 匹配 到 的 字符 串 长 度 是 不 同 的 。 举 例 
来 说 ， 假 设 你 手边 有 一 些 类 似 HTML [ 往 !2] 的 文本 ， 而 你 需要 去 除 <BOLD> 跟 </BOLD> 这 样 
的 标记 并 保留 剩余 的 内 容 。 如 果 要 处 理 的 字符 串 是 这 样 ， - 


Im talking about the carztoon with Fred and 《BOLD>Wilma</VBOLDy>! 
那么 可 以 用 下 面 这 个 蕉 换 表 达 式 把 标记 去 掉 。 但 这 会 有 什么 问题 呢 ? 
5##《BOLD> ( .#)</BOLDy>##$1#Bg ; 
”问题 就 出 在 星 号 量词 太 贪心 了 ! 考 3] 。 如 果 是 下 面 这 个 字符 串 该 怎么 办 ? 


I thought you said Fred and 《BOLD>Velma</VBOLD>，not “BOLD>Wijlma</7VBOLDy> 


注 12: ”再 次 说 明 ， 我 们 所 用 的 并 非 严 格 意 义 上 的 HTML 代 码 ， 实 际 上 ， 我 们 无 法 仅仅 使 用 简单 
的 正则 表达 式 就 来 完成 解析 HTML 的 复杂 工作 。 如 果 你 真 的 需要 处 理 HTML 或 类 似 的 标记 
语言 ， 请 使 用 CPAN 上 的 相关 模块 ， 比 如 HTML: :parser， 来 完成 复杂 任务 。 

注 13: ”还 有 一 个 可 能 会 发 生 的 问题 : 此 处 应 该 加 上 /S 修 饰 符 ， 因 为 结束 标记 可 能 直到 后 面 好 几 

、 行 才 会 出 现 。 好 在 此 处 只 是 个 例子 。 如 果 你 正在 设计 产品 ， 那 吕 应 该 遵照 我 们 的 建议 ， 
找 个 质量 较 高 的 模块 来 用 。 
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、 在 此 情况 下 ， 该 模式 就 会 从 第 一 ， <B0LDy 匹 配 相 到 最 后 一 个 </BOLDy， 把 这 中 间 的 部 分 全 
部 取出 来 。 这 就 错 了 ， 我 们 这 里 要 用 的 其 实 是 非 贪 禁 量 词 。 非 贪 禁 版 本 的 星 号 是 *?， 所 以 
新 的 替换 表达 式 应 该 改写 成 这 样 ， 


s#<BOLD>(.#*?)</BOLDy>#1#g; 
这 么 一 来 就 对 了 。 
既然 加 号 的 非 贪 楚 版 本 是 +?， 星 号 的 非 贪 禁 版 本 是 *? ， 那 么 你 大 概 也 猜 出 来 了 另外 两 
个 量词 的 非 贪 禁 形 式 也 应 该 相 类 似 。 花 括号 量词 的 非 贪 禁 版 本 看 起 来 差不多 ， 只 不 过 问 


号 是 加 在 右 括号 后 面 ， 写 成 {15,10}? 或 者 {8,}? [ 注 141 。 就 连 问号 量词 也 有 非 贫 禁 的 版 
本 : ??。 虽 然 这 还 是 一 样 会 匹配 到 一 次 或 零 次 ， 但 会 优先 考虑 零 次 的 情况 。 


跨行 的 模式 匹配 

传统 的 正则 表达 式 都 是 用 来 匹配 单行 文本 。 由 于 Perl 可 以 处 理 任意 长 度 的 字符 串 ， 其 模 
式 匹 配 自然 也 可 以 处 理 多 行文 本 。 这 其 实 和 处 理 单行 文本 并 无 本 质 上 的 差别 。 当 然 了 ， 
先 得 有 表达 式 可 以 表示 多 行文 本 才 行 。 下 面 的 写法 可 以 表示 4 行 的 文本 ， 


$_ = “"I'm much bettervnthan Barney isvnat bowling,\nWilma.Nn"; 


我 们 知道 ，* 和 $ 都 是 代表 整个 字符 串 的 开头 和 结尾 的 锚 位 ( 见 第 八 章 ) 。 但 当 模式 加 上 
/m 修 饰 符 之 后 ， 就 可 以 用 它们 匹配 字符 串 内 的 每 一 行 (把 m 看 作 多 行 (multiple lines) 匹 
配 会 比较 容易 记 住 ) ， 这 样 一 来 ， 它 们 代表 的 位 置 就 不 再 是 整个 字符 串 的 头 尾 ,而 是 每 
行 的 开头 跟 结尾 了 ! 注 5] 。 因 此 ， 下 面 的 模式 就 成 立 了 ， 


pzint “Found “Wilma” at start of line\xn” if /^wilmaNvb/yim; 


同样 地 ， 你 也 可 以 对 多 行文 本 逐个 进行 替换 。 接 下 来 的 程序 会 先 把 整个 文件 读 进 一 个 变 
量 六 :9 ， 然 后 把 文件 名 作为 每 一 行 的 前 级 进 行 替换 ; 
open FILE，$filename 
or die "Can't open “$filename : $| 


my $lines = join ”，“FILE>; 
4$lines =~ S/^/$filename: /gm; 


注 14: “理论 上 ， 即 使 次 数 是 个 明确 的 数字 ， 也 会 存在 非 贪 栗 量词 ， 例 如 {3}?。 但 由 于 已 经 直接 
讲 明了 次 数 ， 所 以 其 实 也 就 失去 了 贪 末 与 非 贫困 之 间 的 灵活 性 了 。 


注 15: ， 记 住 ， 这 就 是 为 什么 我 们 之 前 建议 你 改 用 更 为 严 说 的 \A 和 \z 锚 位 的 原因 。 如 果 你 确实 要 
匹配 字符 串 的 开头 和 结尾 的 话 ， 就 应 该 用 这 两 个 锚 位 。 


注 16: 荐 望 它 很 小 。 我 们 指 的 是 文件 ， 而 不 是 变量 。 
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一 次 更 新 多 个 文件 

通过 程序 自动 更 新 文件 内 容 时 ， 最 常见 的 做 法 就 是 先 打 开 一 个 和 原来 内 容 一 致 的 新 文 
件 ， 然 后 在 需要 的 位 置 进 行 改写 ， 最 后 把 修改 后 的 内 容 写 进 去 。 后 面 会 看 到 ， 这 样 做 和 
直接 更 新 文件 的 做 法 的 效果 大 致 相同 ， 只 是 有 些 附带 的 好 处 。 


比如 下 面 这 个 例子 ， 假 设 现在 有 几 百 个 格式 类 似 的 文件 。 NI 里 面 
都 是 类 似 下 面 这 几 行 的 内 容 : 


ProgTram name: gIanjite 
Author: Gilbert Bates 
Company: Rock9Soft 
Department: R&D 
Phone: +1 503 555-0095 
Date: Tues March 9，2004 
Vetrsion: 2.1 

Size: 21kK 
Status: Final beta 


我 们 想 要 修改 这 个 文件 ， 让 它 有 一 些 不 同 的 信息 。 下 面 大 致 就 是 最 终 改 好 后 的 样子 : 


ProgTram name: granite 
Author: Randal L，Schwaxztz 
Company: RockSoft 
Depatftment: R&D 

Prcogram name: ganjite 
Author: Randal L。Schwaxtz 
Company: RockSoft 
Department: R&D 

Date: June 12，2008 6:38 Pm 
Version: 2.1 

Size: 21k 

Status: Final betaDate: June 12，.2008 6:38 pm 
Verizsion: 2.1 

Size: 21k 

Status; Final beta 


简单 地 说 ， 我 们 要 做 三 项 改动 Author 字 段 的 姓名 要 改 ，Date 要 改 成 今天 的 日 期 ， 而 
phone 则 要 删除 。 另 外 还 有 几 百 个 文件 也 都 要 进行 类 似 的 修改 。 


要 在 Perl 中 直接 修改 文件 内 容 可 以 使 用 钻石 操作 符 《<>) 。 虽 然 一 眼 可 能 看 不 出 端倪 ， 
人 此 程序 的 新 意 在 于 特殊 变量 $^I。 现 在 我 们 先 跳 
过 它 ， 等 一 下 再 说 明 


##1VUSTVbinVpeTlL - 册 
Use StTrjict; 


chomp(my $date =“date`)j 
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4$^I = ".bak”; 


while (<>) { 
S/^AAuthor: .#/Author: Randal L。Schwaxztz/; 
Ss/^Phone: .kNMn// 
S/^Date: .#*/Date: $date/; 
print; 
】} 
因为 我 们 需要 今天 的 日 期 ， 所 以 这 个 程序 一 开始 就 使 用 了 系统 的 dare 命 令 。 此 外 也 可 以 在 


标量 上 下 文中 使 用 Per 自己 的 localtime 函 数 《但 两 者 的 格式 稍 有 不 同 ) ， 性 能 更 好 些 ; 
my $date = 1ocaltime; 
下 一 行 则 是 对 $^I 变 量 赋值 ， 不 过 我 们 现在 先 跳 过 不 看 。 


钻石 操作 符 会 读 取 命令 行 参数 指定 的 那些 文件 。 程 序 的 主 循环 一 次 会 读 取 、 更 新 及 输出 
一 行 〈 以 之 前 学 到 的 知识 来 推断 ， 你 没准 觉得 经 过 修改 的 内 容 会 飞快 地 在 终端 上 滚 过 ， 
而 本 来 的 文件 却 没 修改 。 不 过 请 耐心 地 看 下 去 ) 。 注 意 第 二 个 替换 运算 是 把 电话 号 码 那 
一 行 换 成 空 字符 串 ， 连 换行 符 也 一 起 去 掉 。 所 以 到 了 要 输出 的 时 候 ， 其 实 什么 都 不 会 输 
出 ， 就 好 像 从 来 就 没有 出 现 过 Phone 这 个 字段 一 样 。 由 于 大 部 分 的 输入 行 都 不 会 匹配 这 
三 个 模式 ， 所 以 它们 在 输出 的 时 候 都 不 会 有 任何 变动 。 


这 样 的 结果 跟 我 们 想 要 的 已 经 相差 不 远 了 ， 但 我 们 还 没有 告诉 你 更 新 过 的 内 容 是 如 何 写 
回 文 件 的 。 这 个 问题 的 答案 就 在 $^IT 这 个 变量 中 。 这 个 变量 的 默认 值 是 undef， 人 也 不 会 对 
程序 造成 任何 影响 。 但 如 果 将 其 赋值 成 某 个 字符 串 ， 钻 石 操作 符 〈<>) 就 会 具有 比 平常 
更 多 的 魔力 。 


对 于 钻石 操作 符 的 魔力 我 们 已 经 知道 不 少 ; 它 会 自动 帮 你 打开 许多 文件 ， 而 且 如 果 没 有 
指定 文件 ， 它 就 会 从 标准 输入 读 进 数据 。 但 如 果 $^I 中 是 个 字符 串 ， 该 字符 串 就 会 变 成 
备份 文件 的 扩展 名 。 现 在 我 们 来 看 看 这 是 如 何 运 作 的。 


先 假设 钻石 操作 符 正 好 打开 了 文件 Pred03.dat。 除 了 像 以 前 一 样 打开 文件 之 外 ， 它 还 会 把 
文件 名 改 成 red03.dar.bak [ 考 P] 。 虽 然 打 开 的 是 同一 个 文件 ， 但 是 它 在 磁盘 上 的 文件 名 
已 经 不 同 了 。 接 着 ， 钻 石 操作 符 会 打开 一 个 新 文件 并 将 它 取 名 为 fed03.daf。 这 么 做 并 不 
会 有 任何 问题 ， 因 为 我 们 已 经 没有 同名 文件 了 。 现 在 钻石 操作 符 会 把 默认 的 输出 设 定 为 . 
这 个 新 打开 的 文件 ， 所 以 输出 来 的 所 有 内 容 都 会 被 写 进 这 个 文件 [ 圭 181 。 这 样 while 特 


注 17: ”在 非 Unix 系 统 上 实现 细节 可 能 有 些 不 同 ， 但 结果 应 该 都 是 一 样 的 。 详 见 你 的 Perl 版 本 的 注 
意 事项 。 


注 18: 钻石 操作 符 也 会 尽 可 能 复制 原文 件 的 使 用 者 权限 以 及 所 有 者 设 定 。 例 如 ， 如 果 本 来 的 文 
件 是 所 有 用 户 绢 可 读 取 ， 那 么 新 的 文件 也 应 该 如 此 。 
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环 会 从 旧 文件 读 进 一 行 输入 ， 做 了 一 些 改动 之 后 把 新 的 内 容 写 进 新 文件 。 在 普通 的 机 器 
上 ， 这 样 的 程序 可 以 在 几 秒 内 更 新 好 上 百 个 文件 。 够 厉害 吧 ? 


所 以 程序 结束 后 ， 用 户 会 发 现 什 么 呢 ? 他 们 会 说 “ 喔 ， 我 懂 了 。Perl 根 据 我 的 需要 编辑 
了 jed03.dar 文 件 的 内 容 ， 而 且 好 心地 把 原始 拷贝 备份 到 jed03.datpak 文 件 ”。 不 过 我 们 


知道 真相 ，Perl 并 没有 编辑 任何 文件 ， 它 只 是 创建 了 一 个 修改 过 的 拷贝 。 趁 我 们 还 在 盯 
着 他 那 冒 烟 的 魔术 师 手 杖 看 的 时 候 ， 把 文件 偷偷 调 了 包 。 真 是 高 明 蚜 ! 


有 些 人 会 把 $^I 的 值 设 为 ~ 这 个 字符 ， 因 为 emecs 在 处 理 备份 文件 的 文件 名 时 也 是 这 么 
做 。 而 如 果 把 $^I 设 为 空 字符 串 ， 就 会 直接 修改 文件 的 内 容 ， 但 不 会 留 下 任何 备份 。 只 
要 模式 中 不 小 心 打 错 一 个 字 ， 就 可 能 会 把 整 份 数 据 全 都 清空 ， 所 以 如 果 你 真 的 想 看 看 备 
份 磁 带 质量 如 何 ， 就 尽情 地 用 空 字符 串 吧 ! 全 部 确认 无 误 之 后 再 把 备份 文件 删除 是 轻 而 
易 举 的 事 。 如 果 做 错 了 ， 则 需要 把 已 备份 的 文件 还 原 同 来， 大概 你 已 经 想到 可 以 用 Perl 
来 做 这 件 事 了 (参见 第 十 三 章 的 “ 重 命名 文件 ”一 节 中 的 例子 ) 。 


从 命令 行 直接 编辑 
之 前 一 节 中 通过 编程 修改 文件 内 容 的 方式 已 经 非常 简单 了 ， 不 过 ，Larry 认 为 那 还 不 够 。 


假设 你 需要 更 新 上 百 个 文件 ， 把 里 面 拼 错 成 Randal1 的 名 字 改 成 只 有 一 个 1 的 Randal。 你 
可 以 写 个 和 之 前 类 似 的 程序 完成 此 事 。 或 者 ， 你 也 可 以 在 命令 行 上 使 用 如 下 单行 程序 一 
步 完 成 : 


$ perl -p -i.bak -WwW -e“Ss/RandalL/Randal/g”Tfred#.dat 


Perl 的 命令 行 选 项 设计 非常 巧妙 ， 让 你 只 用 极 少 的 按键 就 能 建立 一 个 完整 的 程序 [ 注 9] 。 我 
们 先 来 看 看 这 个 例子 中 的 选项 的 用 处 。 


以 peri 开 头 的 命令 的 作用 如 同 在 文件 的 开头 写 上 #1/uszr/binyper1; 表示 使 用 perl 程 序 来 
处 理 随后 的 脚本 。 


-p 选 项 则 可 以 让 Perl 自 动 生成 一 小 段 程序 ， 看 起 来 类 似 如 下 片段 二 |; 


while (<>) 攻 
Print; 


如 果 不 需 要 这 么 多 功能 ,还 可 以 改 用 -n 先 项， 这样 可 以 把 自动 执行 的 print 去 掉 ， 所 以 你 
可 以 自行 决定 什么 内 容 需 要 (awk 的 粉丝 们 会 比较 熟悉 -p 和 -n 选 项 ) 打印 。 这 点 细微 差 





注 19: 参考 perlrun 文 档 ， 其 中 列 有 全 部 可 用 选项 。 


注 20: 其实 print 出 现在 continue 块 中 。 进 一 步 的 信息 请 参阅 perlsyn 和 Perlrun 文 档 。 
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别 对 大 程序 来 说 无 关 轻 重 ， 但 对 于 节约 按键 时 间 来 说 还 是 很 有 好 处 的 。 


”下 一 个 出 现 的 选项 是 -i.bak， 其 作用 就 是 在 程序 开始 运行 之 前 把 $^I 设 为".bak"。 如 果 你 
不 想 做 备份 ， 请 直接 写 出 -1， 不 要 加 扩展 名 。 如 果 你 不 要 备用 的 降落 伞 ， 那 就 只 带 一 副 
二 飞机 吧 。 


之 前 已 经 介绍 过 -w 选 项 了 ， 它 能 开启 警告 功能 。 


选项 -e 用 来 告诉 Perl 后 面 跟着 的 是 可 供 执行 的 程序 代码 。 也 就 是 说 ，s/Randal1VRandal/ 
g 这 个 字符 串 会 被 直接 当成 Perl 程 序 代 码 。 因 为 月 前 我 们 已 经 有 个 whi le 循环 (来 自 -p 选 
项 ) 了 ， 所 以 这 段 程序 代码 会 被 放 到 循环 中 print 前 面 的 位 置 。 基 于 一 些 技术 上 的 原因 ， 
用 -e 选 项 指定 的 程序 中 可 以 省 略 末尾 的 分 号 。 如 果 你 指定 了 多 个 -e 选 项 ， 就 会 有 多 段 程 
序 代 码 ， 此 时 只 有 最 后 一 段 程序 末尾 的 分 号 可 以 省 略 。 


最 后 一 个 命令 行 参数 是 fred#.dat， 表示 6@ARGV 的 值 应 该 是 匹配 此 文件 名 模式 的 所 有 文件 
. 名。 把 以 上 所 有 片段 全 都 组 合 在 一 起 ， 就 好 像 写 了 下 面 这 个 程序 并 且 用 fred#.dat 这 个 参 
#1VUSIT/Vbin/perl -W 
中 ^ 工 = ".bak"; 


while (<>) 
Ss/RandallLVRandal/8g; 
print; 
】} | 
把 这 个 程序 与 我 们 上 一 市 使 用 的 程序 相 比 ， 会 发 现 这 两 者 十 分 相似 。 通 过 命令 行 选项 就 
能 完成 这 么 一 大 堆 事情 ， 写 起 来 又 轻便 ， 是 不 是 很 扶 ? 


习题 
以 下 习题 答案 参 第 321 页 上 的 “第 九 章 习题 解答 ”一 节 ， 


1. [7] 建 立 一 个 模式 ， 无 论 $gwhat 的 值 是 什么 ， 它 都 可 以 匹配 三 个 gwhat 的 内 容 
连 在 一 起 的 字符 串 。 也 就 是 说 ， 如 果 $what 的 值 是 fred， 那 么 你 的 模式 应 该 
匹配 fredfredfredi 若 $what 的 值 为 fredlbarney， 和 那么 你 的 模式 应 该 匹配 
fredfredbarney、barneyfredfred、bazrneybarneybarney 或 许多 其 他 组 合 。 ( 提 
示 : 你 应 该 在 模式 测试 程序 的 开头 放 上 类 似 mygwhat='fred|barney'; 这 样 的 语 
句 。) 
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[12] 写 个 程序 来 复制 并 修改 指定 的 文本 文件 。 在 副本 里 ， 此 程序 会 把 出 现 字符 串 
Fred (大 小 写 不 计 ) 的 每 一 处 都 换 成 Larry (也 就 是 Manfred Mann 换 成 ManLarTy 
Mann) 。 输 入 文件 名 应 该 在 命令 行 上 指定 〈 不 询问 用 户 ) ， 输 出 文件 名 则 是 本 来 的 
文件 名 加 上 .out。 


[8] 修 改 前 一 题 程序 ， 把 所 有 的 Fred 换 成 Wilma 并 把 所 有 的 Nilma 换 成 Fred。 如 果 输 入 
的 是 fredg&wilma， 那 么 正确 的 输出 应 是 Nilma&Fred。 
[10] 附 加 题 : 写 个 程序 ， 把 你 目前 写 过 的 所 有 程序 都 加 上 版 权 声明 ， 也 就 是 加 上 一 
行 这 样 的 文字 

撞 CopyTight (C) 20XX by Yours TIU1y 
把 它 放 在 “shebang” 行 之 后 。 你 应 该 直接 修改 文件 内 容 并 且 做 备份 。 假 设 你 将 在 
命令 行 指定 待 修改 文件 的 名 称 。 
[15] 额 外 附加 题 ， 修改 前 一 题 程 序 里 的 模式 ， 如 果 文 件 里 已 经 有 版 权 声明 ， 就 不 再 


进行 修改 。 提 示 : 你 可 能 需要 知道 钻石 操作 符 当 前 正在 读 取 的 文件 的 名 称 ， 可 以 在 
$ARGV 里 找到 。 
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第 十 章 








其 他 控制 


证 


构 


本 章 你 会 看 到 其 他 编写 Perl 程 序 的 方式 。 总 的 来 说 ， 这 些 技术 并 不 会 提升 Perl 语 言 本 身 的 
威力 ， 但 用 来 完成 任务 、 解 决 问题 还 是 非常 轻松 容易 的 。 你 不 一 定 要 在 自己 的 程序 中 使 
用 这 些 技 术 ， 不 过 可 别 因 此 小 看 这 些 内 容 ， 迟 早 你 都 会 在 别人 的 程序 代码 中 看 到 这 些 控 
制 结构 (事实 上 ， 读 完 本 书 前 ， 你 肯定 会 看 到 这 些 技术 的 实际 用 例 ) 。 


unless 控 制 结构 


在 if 控制 结构 中 ， 只 有 当 条 件 表达 式 (conditional expression) 为 真 时 ， 才 执行 某 块 代 
码 。 如 果 你 想 让 代码 块 在 条 件 为 假 时 才 执 行 ， 请 把 if 改 成 unless: 


unless ($fred =>” /AMA[A-Z_]\w*N\z/i) 
pTint “The value of \$fred doesn t look like a Perl jidentifieT name.Xn ; 


使 用 unless 意 味 着 ， 除 非 (unless) 执行 条 件 为 真 ， 否 则 就 执行 里 面 的 代码 。 这 就 好 像 
使 用 if 测试 来 判断 相反 的 条 件 。 另 一 种 说 法 是 它 类 似 于 独立 的 el se 子 句 。 也 就 是 说 ， 
当 看 不 懂 某 个 unless 语 名 时， 你 总 可 以 用 下 面 这 样 的 if 测试 等 价 表示 〈 心 里 默默 转换 也 
好 ， 实 际 改写 也 罢 ) : 
计 (4fred =” /AAA[A-Z_]\wkNz/i) { 
# 什么 都 不 做 


} else 1{ 
print "The value of \$fred doesn't look like a Perl identifier name.\n ; 


这 么 做 与 运行 效率 高 低 无 关 ， 两 种 写法 应 该 会 被 编译 成 相同 的 内 部 字 节 码 。 另 外 一 个 改 
写 的 方法 ， 就 是 以 否定 操作 符 〈1!1) 来 否定 条 件 表达 式 ， 
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jif (1 ($fred =~ /人 AA[A-Z_]\wr\z/i) ) { 
print “The value of \$fred doesn't 1ook like 3a Perl jidentifier name.Nn'”; 


】 


一 般 来 说 ;我们 应 该 选择 最 容易 理解 的 方法 写 代码 。 对 程序 维护 员 来 说 ， 读 得 越 顺 ， 
理解 起 来 也 就 越 容 易 。 如 果 用 if 表达 比较 撩 口 ， 要 加 上 否定 才 通 顺 的 话 ， 那 就 应 该 改 用 
unless。 以 后 你 就 会 发 现 ， 有 了 时候 只 有 使 用 unless 才 更 为 自然 。 


伴随 unless 的 else 子 名 
其 实 unless 之 后 也 可 以 加 上 一 个 else 子 句 。 虽 然 这 在 语法 上 是 允许 的 ， 但 却 有 潜在 的 语 
义 混淆 . 
unless (4$mon => /\AAFeb/y) { 
pzint "This month has at least thirty days.N\n"; 


]】 else { 
print "Do you see What 's going on here?Nn"; 


确实 有 人 希望 能 这 么 写 ， 特 别 是 当 第 一 个 子 句 相 当 短 (也 许 只 有 一 行 ) 而 第 二 个 子 名 又 
有 很 多 行 的 时 候 。 不 过 我 们 可 以 把 它 改写 成 否定 的 if 语句 ， 或 者 干脆 对 调 两 个 子 句 成 为 
一 个 普通 诈 控制 结构 : 
if ($mon =~ /\AFeb/) { 
print “Do you see what's going on here?yNn "; 


} else { 
pTint “This month has at least thirty days,Nn"; 


有 一 点 很 重要 ， 请 记 住 ， 代 码 的 读者 永远 可 以 分 为 两 类 : 执行 代码 的 机 器 以 及 维护 代码 
的 人 类 。 如 果 人 类 都 无 法 理解 你 写 的 程序 ， 那 迟早 机 器 也 会 做 错 事情 。 


until 控 制 结构 
有 时 也 许 你 会 想 要 苏 倒 while 循 环 的 条 件 表达 式 。 那 么 ， 请 使 用 unt 订 语句 : 
until ($j > $3) { 


$j *= 2; 


这 个 循环 会 一 直 执 行 ， 直 到 条 件 为 真 。 它 只 不 过 是 个 改装 过 的 while 循 环 罢了 ， 两 者 之 间 的 

唯一 差别 在 于 ，unti 会 在 条 件 为 假 时 重复 执行 ， 而 不 是 为 真 时 执行 。 因 为 条 件 判断 发 生 在 

循环 第 一 次 选 代 之 前 ， 所 以 它 仍 旧 是 一 个 执行 零 次 以 上 的 循 义 ， 和 while 循 环 一 样 上 。 

注 1: Pascal 程序 员 请 注意 : 你 们 的 repeat-until 循 环 至 少 会 执行 一 次 ， 但 Perl 的 until 御 环 可 能 
一 次 也 不 执行 ， 固 为 条 件 判断 是 在 每 次 循环 执行 之 前 进行 的 。 
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类 似 if 和 unless 转 化 的 例子 ， 你 可 以 用 否定 条 件 表 达 式 的 方法 ， 把 任意 一 个 unti1 循 环 改 
写成 while 循 环 。 不 过 随 闭 时 间 推 移 ， 你 会 逐渐 习惯 采用 简单 而 自然 的 写法 来 使 用 unti1l 
控制 结构 。 


表达 式 修 饰 符 


为 了 进一步 简化 代码 书写 ， 表 达 式 后 面 可 以 接 一 个 用 于 控制 它 行为 的 修饰 符 。 比 如 下 面 
这 个 计 修 饰 符 ， 它 实际 的 作用 相当 于 一 个 许 语句 块 ， 


print "$n is a negative numbeT.\n"” 计 $n《 0; 


这 其 实 能 达到 和 下 面 代 码 完 全 相同 的 效果 ， 但 我 们 省 去 了 键入 圆 括号 和 花 括 号 的 工 
作 [ 注 2]， 
if ($n0){ 


print "$n is a negative number.N\n"; 


】 


之 前 曾经 提 到 ， 那 些 使 用 Perl 的 家 伙 都 懒 于 打字 。 不 过 这 个 更 短 的 版 本 其 实 也 更 容易 用 
英语 读 出 来 : print this message 这 $n is less than zero。 


注意 ， 即 使 条 件 表达 式 写 在 后 面 ， 它 仍然 会 先 执行 。 这 与 通常 由 左 至 右 的 顺序 相反 。 解 
读 Perl 代 码 的 方法 就 是 像 Perl 的 内 部 编译 器 一 样 ， 先 把 语句 全 部 读 完 再 判断 其 含义 。 


还 有 其 他 几 个 修饰 符 ， 


&ertor( "Invalid input") unless 8&valid($input); 
$i *= 2 until $i > 9$Jj; 

print ”"”，($n += 2) while $n 《〈 10; 

&greet($_) foreach @personj 


以 上 写法 都 能 按照 我 们 原本 的 意图 正常 运作 。 换 句 话说 ， 上 面 每 一 行 都 可 以 效仿 if 修饰 
符 范 例 进 行 改写 。 比 如 第 三 条 可 以 改写 成 : 
while ($n《 10) { 


print ”"，($n += 2); 


】 


值得 注意 的 是 ， 在 print 参 数列 表 中 ， 圆 括号 里 的 表达 式 会 将 $n 加 2， 并 将 结果 存 回 $n， 
然后 返回 最 新 的 值 并 打印 出 来 。 


注 2: 当然 还 省 去 了 换行 符 。 但 是 要 注意 花 括 号 其 实 还 有 创建 新 的 变量 作用 域 的 功能 。 在 菜 些 
时 候 这 很 有 用 ， 要 进一步 了 解 细节 ， 还 请 参阅 文档 。 
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这 些 简写 形式 读 起 来 像 自 然 语 言 : 调用 call the &greet subroutine for each @person in the 
list( 调 用 &greet 子 程序 问候 @person 中 的 每 个 成 员 ) ;double $1 until it's large than 季 ( 倍 增 $ 
直到 它 大 于 钉 ) 兰 ?! 。 这 些 修饰 符 的 常见 用 法 之 一 ， 就 是 写成 下 面 这 样 的 语句 : 


print“fred is “$fTred'  ，barzney is “$barzrney ' \n” jif $I_am_curiousj 


用 这 种 “ 倒 装 句 ”编写 程序 可 以 把 语句 中 重要 的 部 分 放 在 前 面 。 上 面 那 个 语句 的 重点 是 
查看 一 些 变量 的 值 ， 而 不 是 检查 你 是 否 好 奇 六 ” 。 有 些 人 喜欢 将 整个 语句 写成 一 行 ， 
也 可 能 在 if 之 前 加 上 些 制 表 符 使 它 向 右边 缩 进 一 些 ， 上 面 那个 例子 就 是 如 此 。 也 有 人 喜 
欢 将 计 修 饰 符 放 在 下 一 行 并 缩 进 一 段 距离 : 

print “fred js“$fred  ，barzney js “$barney NAn” 

于 $I_am_curzjious; 

虽然 这 些 带 有 修饰 符 的 表达 式 都 可 以 用 块 的 形式 重 写 ， 也 就 是 用 最 传统 的 方法 写 ， 但 反 
方向 的 重 写 却 不 一 定 成 功 。 修 饰 符 的 两 边 都 只 能 写 单个 表达 式 ， 因 此 不 能 写 某 事 if 某 事 
while 某 事 until 某 事 unless 某 事 ， 因 为 那样 太 让 人 困惑 了 。 另 外 修饰 符 的 左边 也 不 能 
多 条 语句 。 如 果 确 实 需要 ， 还 是 建议 你 回 到 传统 做 法 ， 仍 然 写 那些 圆 括号 和 花 括号 。 


如 同 我 们 之 前 提 到 if 修饰 时 所 说 的 ， 右 边 的 控制 表达 式 总 是 先 求 值 ， 和 老式 写法 的 执行 
顺序 是 一 样 的 。 


在 使 用 foreach 修 饰 符 的 时 候 无 法 自选 控制 变量 ， 必 须 得 使 用 $_。 这 通常 不 是 问题 ， 不 过 
若 真 需要 自选 控制 变量 ， 可 以 用 老式 的 foreach 循 环 改 写 。 


裸 块 控制 结构 


所 谓 的 “ 裸 块 (naked block) ” 就 是 没有 关键 字 或 条 件 表达 式 的 代码 块 。 好 比 现在 有 一 
个 while 循 环 ， 如 下 所 示 : 


while (condition) 荆 
body; 
body; 
body; 

】 


然后 拿 走 关键 字 while 和 条 件 表 达 式 ， 就 会 得 到 一 个 裸 块 : 


注 3: 好 吧 ， 至 少 我 们 是 这 么 理解 阅读 的 。 


注 4: 当然 ，$I_am_curious 这 个 变量 是 我 们 杜撰 出 来 的 ， 并 非 内 置 的 Perl 变 量 。 通 常 使 用 这 个 
技巧 的 人 会 将 变量 命名 为 $JTRACING， 或 者 用 constant 编 译 指令 来 声明 一 个 全 局 常量 。 
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{ 
body; 
body; 
body; 
] 


” 神志 就 像 一 个 while 或 foreach 循 环 ， 只 是 它 从 不 循环 ， 它 仅仅 执行 循环 体 一 次 ， 然 后 结 
束 。 所 以 ， 裸 块 其 实 并 非 循环 | 


稍 后 就 能 看 到 裸 块 的 一 些 其 他 应 用 ， 这 里 先 看 它 是 如 何 为 临时 词法 变量 限定 作用 域 的 ， 
{ 


print "Please enter 3a number: “; 

chomp(my $n =《STJDIN> ); 

my $root = sqrt $nj # 计算 平方 根 

print "The square Toot of $n is $root.Nn"; 


】 


人 时 变量 。 一 个 关于 局 部 变量 的 准则 是 : 最 好 把 变 

声明 在 最 小 使 用 范围 之 内 。 如 果 某 个 变量 只 会 在 几 行 代码 里 使 用 ， 你 可 以 把 这 几 行 放 
到 一 个 视 决 里 并 就 近 声 明 变 重 。 当然 ， 如 果 我 们 稍 后 还 需要 用 到 $n 或 者 gr oot 之 类 的 变 
量 ， 便 需要 在 更 大 范围 中 声明 这 些 变量 。 


你 可 能 已 经 注意 到 这 里 的 sqzt 函 数 很 陌生 。 没 错 ， 那 是 一 个 我 们 不 曾 见 过 的 函数 。 Perl 
有 许多 内 置 函 数 无 法 在 本 书 一 一 介绍 ， 请 查阅 perlfsnc 文 档 自行 学 习 。 


elsif 子 名 


许多 情况 下 ， 你 需要 逐 项 检查 一 系列 的 条 件 表达 式 ， 看 看 其 中 哪个 为 真 。 这 可 以 通过 if 
控制 结构 的 elsif 子 名 完成 此 事 ， 比 如 下 面 的 代码 ， 


if ( 1 defined $dino) 
Print “The value is undef.\n ; 
} elsif ($dino =~> /^-?N\d+\.?$/) { 
print "The value jis an integer.\n ; 
} elsif ($djino =~ /-?N\dkNNd+$/) 区 
print "The value is a _simple_ floating-point number.NXn ; 
} elsif ($dino eq 一) 【 
print “The value is the empty String.\n ; 
了 else { 
pzint "The value is the String '$dino” .mv 


】} 
Perl 会 一 个 接 一 个 地 测试 这 些 条 件 表达 式 。 当 其 中 基 项 符合 时 ， 相应 的 程序 代码 块 就 会 
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被 执行 ， 然 后 整个 控制 结构 结束 注 51 ， 并 执行 接 下 来 的 程序 代码 。 如 果 没 有 任何 一 项 
符合 ， 则 执行 最 末端 的 el se 块 当然 ，else 子 句 无 疑 是 可 以 省 略 的 ， 但 这 里 最 好 保留 ， 
方便 说 明 ) 。 


elsif 子 句 的 数量 并 没有 限制 ， 但 别 忘 了 Perl 必 须 执行 前 面 的 99 个 失败 的 测试 ， 才 会 到 达 
第 100 个 。 如 果 要 写 十 几 个 el1sif， 不 妨 考 虑 使 用 更 加 有 效 的 方式 来 编写 。Perl 常 见 问题 
集 〈 参 阅 perig 文 档 ) 列 出 了 一 堆 关 于 如 何 模拟 case 或 switch 的 建议 ，Perl 5.10 或 者 更 
高 版 本 的 用 户 还 可 以 选择 使 用 第 十 五 章 中 介绍 的 given-when 结 构 作 为 变通 方式 。 


你 可 能 已 经 注意 到 了 ， 这 个 关键 字 的 拼写 居然 是 els if， 好 像 缺 少 了 一 个 e。 但 如 果 你 写 
成 具有 两 个 e 的 elseif，Perl 会 告诉 你 拼写 错误 。 为 什么 昵 ? 因为 Larry 说 了 算 [二 9 。 


自 增 与 自 减 
编程 中 常常 需要 对 标量 变量 的 值 进行 自 增 或 自 碱 。 因 为 这 种 需求 太 普 遍 了 ， 所 以 像 其 他 
常用 表达 式 一 样 ， 有 相应 的 简写 。 


使 用 自 增 操作 符 (autoincrement operator，++) 能 将 标量 变量 加 1， 就 像 C 语 言及 相似 程 
序 语 言 中 的 相同 操作 符 那 样 ; 


my $bedrock = 42; 
$bedrock++; 间 $bedrock 加 1， 变 成 43 


和 其 他 将 变量 加 1 的 方法 一 样 ， 若 有 需要 标量 将 会 被 自动 创建 ， 


my @people = qnw{f fred barzney fred wilma dino barney fred pebbles }; 

my %count; # 新 的 空 哈 

$count{$_}++ foreach @people;i # 按 需 要 创建 新 的 键 - 值 对 
第 一 次 处 理 foreach 循 环 时 ，$count{f$ } 会 自 增 。 先 是 $gcountf"fred"}， 因 此 它 会 从 
undef 成 为 1， 因 为 之 前 这 个 哈 希 值 不 存在 。 下 一 次 执行 循环 时 ，$count{f "barney"} 会 变 
成 1;， 在 这 之 后 ，$countf "fred"j} 会 变 成 2。 每 次 处 理 循环 时 ，%count 中 的 某 个 元 素 就 会 
自动 递增 ， 当 然 也 有 可 能 被 创建 。 在 整个 循环 完成 后 ，$count{f "fred"]} 的 值 应 该 是 3。 这 
是 个 快速 而 简易 的 方法 ， 可 用 来 检查 列表 中 有 哪些 元 素 并 计算 每 个 元 素 出 现 的 次 数 。 








注 5: 不 像 C 语 言 的 “switch” 结 构 那 样 会 接着 执行 下 一 个 块 。 

注 6: 事实 上 ， 他 坚持 这 种 拼 法 ， 他 苦 至 拒绝 融入 另 一 种 拼 法 的 建议 。 如 果 你 坚持 要 拼写 另 一 
个 e 也 很 简单 :第 一 步 ， 发 明 你 自己 的 语言 ; 第 二 步 ， 让 语言 变 得 非常 流行 。 如 果 程序 
语言 是 你 自己 发 明 的 ， 关 键 字 要 怎么 拼 是 你 的 自由 。 我 们 希望 你 的 语言 不 会 是 第 一 个 有 
“elseunless” 关键 字 的 语言 。 
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类 似 地 ， 自 减 操 作 符 (autodecrement operator，--) 会 从 标量 变量 中 减 去 1 : 


$bedrock--; # $bedrock 减 1， 又 变 同 42 了 


自 增 的 值 
我 们 可 以 在 取得 变量 值 的 同时 修改 变量 值 。 把 ++ 操 作 符 写 在 变量 之 前 就 能 先 增加 变量 的 
值 ， 然 后 获取 新 值 。 我 们 把 这 种 操作 称 为 前 置 自 增 (preincrement) : 


my 和 = 53 
my $n = ++$m;j # 先 增加 和 的 值 到 6， 再 把 该 值 放 入 $n 


或 者 把 - -操作 符 放 在 变量 之 前 ， 先 自 减 ， 再 取 新 值 。 我 们 把 这 种 操作 称 为 前 置 自 减 


(predecremaent) : 
my $c = --$m; # 先 减 少 徊 的 值 到 5， 再 把 该 值 放 人 $c 
接 下 来 是 比较 有 特别 的 部 分 。 将 变量 名 称 放 在 前 面 就 表示 先 取 值 ， 然 后 再 自 增 或 自 减 。 
这 样 的 操作 我 们 称 为 后 置 自 增 (postincrement) 或 后 置 自 减 (postdecrement) : 


my $d = $m++; # $d 得 到 的 是 $m 之 前 的 值 (5) ， 然 后 徊 增加 到 6 

my $e = $m--; # $e 得 到 的 是 gm 之 前 的 值 (6) ， 然 后 徊 减少 到 5 
之 所 以 说 它 特别 ， 是 因为 这 里 同时 做 了 两 件 事 。 我 们 在 同一 个 表达 式 中 取 值 并 且 修 改 它 
的 值 。 如 果 操 作 符 在 前 ， 就 会 先 自 增 (或 是 自 减 ) ， 然 后 使 用 新 值 ， 如 果 变 量 在 前 ， 就 
会 先 返回 其 原来 的 值 ， 然 后 再 自 增 或 自 减 。 另 外 一 种 说 法 是 ， 这 些 操作 符 会 返回 某 个 变 
量 值 ， 但 顺便 它们 还 具有 修改 变量 值 的 副作用 。 


如 果 表 达 式 中 只 由 这 种 操作 符 组 成 “” ， 不 提取 变量 值 ， 而 只 是 利用 修改 值 的 副作用 
的 话 ， 那 么 操作 符 前 置 或 后 置 都 一 样 ， 没 有 任何 区 别 “ ， 


$bedrock++; # $bedrock 加 1 
++$bedTock; # 同样 ，$bedrock 加 1 


这 类 操作 符 的 一 个 常见 用 法 就 是 配合 哈 希 计数 判断 之 前 已 见 过 的 条 目 : . 


my @people = qw{f fred barney bamm-bamm wiima dino barney betty pebbles }; 
my %seen; 


foreach (6@people) {{ 
print “"I've Seen YOU Somewhere before，$_1NAn” 





注 7: 也 就 是 室 上 下 文 。 
注 8: 参与 过 程序 语言 内 部 实现 的 人 可 能 会 猜测 ， 后 置 自 增 及 后 置 自 减 是 否 会 比 它们 的 前 置 版 
本 要 慢 ， 但 Perl 不 会 死 脑筋 ， 在 空 上 下 文中 ;Perl 会 自动 对 后 置 形 式 进行 优化 。 
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填 $seen{f$_}++; 
】} 
当 barney 第 一 次 出 现 的 时 候 ，$seen{f$_}++ 的 值 为 假 ， 因 为 $seen{$_} 的 值 也 就 是 
$seen{"barney"} 的 值 ， 为 undef。 不 过 由 于 这 个 表达 式 具 有 将 $seenf"barney"]} 递 增 的 副 作 
用 ， 所 以 当 再 次 遇 到 barney 的 时 候 ，$seen{ "barney"]} 的 值 就 是 真 ， 使 得 程序 输出 信息 。 


for 控 制 结 构 


Perl 的 for 控 制 结构 类 似 其 他 语言 (如 C 语 言 ) 当中 的 常见 for 循 环 。 大 体 结 构 看 起 来 就 像 
这 样 ， 
for 〈 初 始 化 ; 测试 ; 递增 ) { 
程序 主体 ; 


程序 主体 ; 
】 


虽然 对 Perl 而 言 ， 这 种 类 型 的 循环 事实 上 只 是 一 种 变相 的 while 循 环 ， 如 下 所 示 [入 9] ， 


初始 化 ; 

while 《测试 { 
程序 主体 ; 
程序 主体 ; 
递增 ; 

} 


for 循 环 目前 最 常见 的 用 途 ， 就 是 控制 重复 的 运算 过 程 : 


for ( 生 -= 4; 和 <= 10; $i4+) { # 从 1 数 到 10 
print "I can count to $ilfNn ; 
) 


如 林 之 前 见 过 这 种 用 法 ， 那 么 你 不 看 注释 也 会 知道 第 一 行 在 说 什么 。 在 循环 开始 前 ， 控 制 
变量 $i 被 设置 为 1。 然 后 ， 它 就 像 while 循 环 一 样 ， 当 和 $i 的 值 小 于 或 等 于 10 时 ， 循 环 会 不 断 
迭代 执行 。 每 次 挝 代 之 后 与 下 一 次 选 代 之 前 会 进行 递增 运算 ， 也 就 是 将 控制 变量 科 加 1。 


因此 ， 在 循环 第 一 次 执行 时 ，$i 是 1。 因 为 它 小 于 起 等 于 10， 所 以 程序 会 输出 信息 。 虽 
然 递 增 操作 符 被 写 在 循环 顶端 ， 但 在 罗 辑 上 它 却 是 位 于 循环 底部 ， 等 输出 信息 之 后 才 会 
执行 。 于 是 ，$i 递 增 到 2 ， 依 然 小 于 或 等 于 10， 因 此 程序 会 再 次 输出 信息 。 接 着 $i 递 增 到 
3， 还 是 小 于 或 等 于 10， 依 此 类 推 。 


最 后 ， 程 序 会 输出 数 到 9 的 信息 。 然 后 $i 递 增 到 10， 依 然 小 于 或 等 于 10， 所 以 程序 会 执行 
最 后 一 次 循环 ， 并 且 输 出 信息 表明 数 到 了 10。$i 在 最 后 一 次 递增 时 变 成 了 11， 这 次 不 再 





注 9: 其 实 递增 是 在 continue 块 里 发 生 的 ， 本 书 不 会 涉及 。 请 查看 perlsym 文 档 了 解 真相 。 
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-小 于 或 等 于 10。 所 以 控制 权 退 出 循环 之 外 ， 继 续 执 行 接 下 来 的 代码 。 


因为 这 三 个 部 分 被 一 起 放 在 循环 的 开头 ， 所 以 老练 的 程序 员 看 到 第 一 行 就 明白 ，“ 这 是 
一 个 将 4 从 1 数 到 10 的 循环 。” 


， 当 循环 结束 之 后 ， 它 的 控制 变量 会 在 范围 之 外 。 在 这 个 例子 里 面 ， 控 制 变量 的 值 
oo 可 以 用 来 进行 各 式 各 样 的 计数 。 比 如 从 10 倒 
数 到 1 ， 


、for (4 = 10; $i >= 1; $--) { 
print "JI can count down to $in”; 
】 


这 个 循环 从 -150 开 始 累 加 3， 一 直 加 到 1000 [ 注 11 ， 


for ($i = -150; $i <= 1000; $1 += 3) { 
print "$iNn"; 
】} 


事实 上 这 三 个 循环 控制 部 分 (初始化 、 负 试 和 递增 ) 都 可 以 为 空 ， 但 即使 不 需要 它们 也 
还 得 保留 分 号 。 在 下 面 这 个 不 太 常 见 的 例子 里 ， 测试 部 分 是 一 个 替换 运算 ， 而 递增 部 分 
则 是 空 : 

for ($_ = “bedrock"; sy/(. )/A ) { # 当 SV// 这 个 替换 成 功 时 ， 循 环 继续 


print "One' character is: $LNn ”; 


在 隐 式 while 循 环 中 的 测试 表达 式 是 一 个 替换 运算 ， 成 功 替换 时 会 返回 真 。 在 这 个 例子 
里 ， 当 循环 第 一 次 执行 时 ， 替 换 运 算 会 拿 走 bedrock 中 的 b 字 母 。 每 次 执 和 了 循环 会 拿 走 一 
个 字母 ， 直 到 字符 串 为 空 。 这 时 替换 运算 会 失败 ， 导 致 循环 结束 。 


若 (在 两 个 分 号 之 间 的 ) 测试 表达 式 为 空 ， 它 会 被 自动 当成 真 值 ， 从 而 导致 无 限 循环 。 
不 过 在 你 ;学 到 如 何 中 断 这 种 循环 之 前 请 移 不 要 造 出 无 限 循环 ， 稍 后 我 们 就 会 告诉 你 如 何 
中 断 无 限 循环 : 


for (35) 
print “It's an infinite looplNn ; 





注 10: 请 务必 看 看 《This is Spinal Tap》 这 部 风靡 一 时 的 电影 ， 了 解 什么 是 “up to eleven” 。 


注 11: 注意 ， 其 实 是 不 可 能 真 的 数 到 1000 的 ， 最 后 一 和 是 999， 因 为 和 
所 有 的 值 都 应 该 是 3 的 整数 倍 。 
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如 果真 的 需要 ， 更 具 Perl 风 格 的 无 限 循环 [性 12] 是 while 版 本 的 ; 


while 《1) { 
pzrint "It"s anothexz infinite looplNn”; 
】} 


虽然 C 程 序 员 比较 热 悉 第 一 种 方式 ， 但 即使 是 初学 Perl 的 人 也 知道 1 总 是 真 ， 从 而 导致 
无 限 循 环 ， 因 此 第 二 种 写法 更 好 一 些 。Perl 很 聪明 地 意识 到 这 种 常量 表达 式 是 可 以 优化 
的 ， 因 此 不 会 导致 性 能 问题 。 


foreach 和 for 间 的 秘密 关系 

也 许 你 不 知道 ， 在 Perl 解 析 器 里 ，foreach 和 for 这 两 个 关键 字 实 际 上 是 等 价 的 。 也 就 是 
说 ， 当 Perl 看 到 其 中 之 一 时 ， 就 好 像 看 见 了 另 一 个 。Perl 可 以 从 圆 括号 里 的 内 容 判 断 出 你 
9 意图。 如 果 里 面 有 两 个 分 号 ， 它 就 是 之 前 介绍 的 for 循 环 ， 若 没有 分 号 ， 就 说 明 它 是 一 
个 foreach 循 环 ， 


for (1..10) { # 实际 上 就 是 一 个 从 1 到 10 的 foreach 循 环 
print "I Can count to $_INAn”; 
】 


这 实际 上 就 是 一 个 foreach 循 环 ， 但 用 的 却 是 for 关 键 字 。 除 此 以 外 ， 本 书 其 他 例子 都 会 
写成 foreach 的 形式 。 不 过 在 真实 世界 中 ， 你 觉得 大 多 数 Perl 一 族 会 愿意 多 打 那 多 出 来 的 
4 个 字母 么 星 13?9 除了 初学 者 的 程序 代码 ， 它 通常 都 会 被 写成 for， 所 以 你 必须 像 Perl 一 
样 通过 检查 分 号 来 判断 它 是 哪 一 种 循环 。 


在 Perl 世 界 里 ， 纯 正 的 foreach 循 环 几 乎 总 是 更 好 的 选择 。 在 上 面 的 foreach 循 环 例子 (表面 
上 写成 了 for 循 环 ) 里 面 ， 可 以 一 眼看 出 它 是 从 1 到 10 的 循环 。 可 是 ， 下 面 这 个 for 循 环 也 在 
试图 做 一 样 的 事情 ， 你 看 得 出 它 有 什么 问题 么 ?请 自己 找 答案 ， 不 要 偷 看 脚注 注 !] ， 


注 12: 如 果 不 小 心 造 成 了 一 个 无 限 循环 ， 试 试看 按 Control+C 能 否 终止 。 很 可 能 在 你 按 下 之 后 ， 
程序 还 是 会 在 屏幕 上 滚 过 一 些 信 息 才 停止 ， 这 是 系统 IO 和 其 他 因素 导致 的 。 嘿 ， 我 们 已 
经 敬告 过 你 了 。 

注 13: ”要 是 你 真 的 这 么 想 ， 说 明 你 还 是 初学 者 ， 仍 然 没什么 人 关注 你 。 在 程序 员 〈 尤 其 是 Perl 程序 
员 ) 看 来 ， 懒 情 是 传统 美德 。 如 果 不 信 ， 下 次 参加 Perl Monger 悄 会 的 时 候 可 以 调查 一 下 。 

'. 注 14: 这 里 有 两 个 半 错 误 。 第 一 ， 条 件 部 分 使 用 小 于 号 ， 因 此 实际 的 循环 只 执行 9 次 而 非 10 次 。 
这 种 循环 很 容易 陷入 所 谓 的 “栅栏 柱 (fencepost) ”问题 ， 比 如 有 位 农夫 想 建 一 条 30 米 
的 机 栏 ， 每 隔 3 米 立 一 个 柱子 ， 那 么 农夫 需要 多 根 栅栏 柱 才 够 ? 答案 可 不 是 10 个 蛾 。 第 
二 ,控制 变 量 是 $i， 但 循环 体 中 使 用 的 却 是 $_。 还 有 半 个 错误 是 ， 对 于 这 种 写法 ， 需 要 
读 、 写 、 维 护 、 调 斌 的 代码 更 多 ， 这 也 就 是 为 什么 我 们 说 纯正 的 foreach 在 Perl 里 是 一 个 
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for (4 = 1; 旺 《 10; $i+r+) { # 糟糕 ! 这 里 革 个 地 方 有 错误 | 


pzint "I can count to $_lNn”; 


】 


循环 控制 

目前 为 止 你 大 概 已 经 感觉 到 ，Perl 是 一 种 所 谓 的 “结构 化 ”编程 语言 。 特 别 是 Perl 程 序 的 
任何 块 都 只 有 一 个 人 口 ， 也 就 是 块 的 顶端 。 不 过 相 比 前 面 介绍 过 的 结构 ， 有 时 候 需 要 更 
多 样 化 的 控制 方式 。 例 如 你 有 时 候 可 能 需要 一 个 跟 while 循 环 相似 的 循环 ， 但 要 求 它 至 
少 执行 一 次 ; 或者， 你 偶尔 需要 提早 退出 某 个 代码 块 。Perl 有 三 个 循环 控制 操作 符 ， 你 
可 以 在 循环 里 使 用 ， 让 循环 做 到 各 种 招式 。 


last 操 作 符 
1ast 操 作 符 能 立即 中 止 循环 的 执行 ， 就 像 在 C 这 类 语言 中 的 “break” 操 作 符 一 样 。 它 
循环 的 “紧急 出 口 ”。 当 你 看 到 last， 循 环 就 会 结束 。 例 如 ， 
# 打印 输入 中 所 有 提 到 fred 的 行 ， 直 到 磁 到 _END_ 记号 为 目 
while (<STDIN>) { 
评 (/_END_/) { 
# 磁 到 这 个 记号 说 明 再 也 没有 其 他 输入 了 
]ast; 


} elsif(〈/fred/) 
print; 
】} 


】 


只 要 输入 行 中 有 __END_ 记号， 这 个 循环 就 会 结束 。 当 然 ， 结 尾 的 那 行 注释 只 是 提醒 而 
已 ， 完 全 可 以 省 略 。 我 们 只 是 将 它 放 在 那里 ， 好 让 整个 过 程 更 加 清晰 。 


在 Perl 中 有 5 种 循环 块 ， 它 们 是 for、foreach、while、unti 以 及 裸 块 | 往 5] 。 而 i 块 或 子 
程序 措 的 花 括 号 考 16] 不 是 循环 块 。 如 同 前 面 的 例子 ，1ast 操 作 符 对 整个 循环 块 起 作用 。 


1ast 操 作 符 只 会 对 当前 运行 中 的 最 内 层 的 循环 块 发 挥 作用 。 要 跳出 外 层 块 ， 请 继续 看 下 
去 ， 我 们 很 快 就 会 提 到 。 


注 15: 没 错 ， 你 可 以 用 last 跳 出 裸 块 (jump out of a naked block) 。 但 这 并 不 意味 着 你 在 家 门口 
裸 兽 (jumping naked out into your block) 。 


注 16: “这 可 能 是 个 坏 主 意 ， 但 确实 可 以 在 子 程序 里 用 循环 控制 操作 符 来 控制 子 程序 外 面 的 御 
环 。 也 就 是 说 ， 如 果 在 循环 块 内 调用 一 个 子 程序 ， 并 且 子 程序 执行 1ast 操 作 ， 同 时 子 程 
序 内 并 没有 运行 中 的 循环 块 ， 那 么 程序 的 流程 会 跳 到 主 程序 中 的 循环 块 的 后 面 。 在 将 来 
的 Perl 版 本 中 ， 这 种 在 子 程序 内 的 循环 控制 能 力 会 被 去 掉 ， 没 有 人 会 怀念 它 的 。 
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next 操 作 符 
有 时候 你 并 不 需要 立刻 退出 循环 ， 但 需要 立刻 结束 当前 这 次 循环 迭代 。 这 就 是 next 操 作 
符 的 用 处 ， 它 会 跳 到 当前 循环 块 的 底 端 二 771 。 在 next 之 后 ， 程 序 将 会 继续 执行 循环 的 
下 一 次 友 代 ， 这 和 C 这 类 语言 中 的 “continue” 操 作 符 的 功能 相似 ， 

# 分 析 输入 文件 中 的 单词 

while (<>) 
foreach (split) { # 将 $ 分 解 成 单词 ， 然 后 每 次 将 一 个 单词 赋值 给 $_ 

$total++; W 有 

next if /AN  # 如 果 磁 到 不 是 单词 的 字符 ， 跳 过 循环 的 剩余 部 分 

$valid++; 

$count{$_}++; # 分 别 统计 每 个 单词 出 现 的 次 数 

持 上 面 的 next 语句 如 果 运 行 ， 会 跳 到 这 里 寺 
} 
} ， 
print“total things = $total，valid words = $validn ; 
foreach $word (Sort keys %count) { 

Print "$word was seen $count{$wordy times.Nm ; 


】} 
这 个 例子 比 前 面 的 要 复杂 些 ， 所 以 我 们 逐步 进行 解说 。while 循 环 逐 行 读 取 来 自 钻石 操作 
符 的 输入 并 放 进 $_ ， 这 我 们 先前 已 经 看 过 了 。 循 环 每 次 执行 时 ，$ 就 得 到 输入 数据 的 下 
一 行 。 
在 循环 中 ，foreach 循 环 能 遍历 sp1it 返 回 的 列表 。 你 还 记得 sp1it 不 带 参 数 的 默认 行为 么 
替 18 9 它 会 用 空白 来 切 分 $_， 也 就 是 说 把 $ 分 解 成 由 单词 组 成 的 列表 。 既 然 foreach 循 环 
没有 提 到 其 他 控制 变量 ， 控 制 变量 就 应 该 是 4$ 。 因 此 我 们 会 在 $ 中 依次 看 到 所 有 单词 。 


可 是 ， 我 们 不 是 才 说 过 $ 是 用 来 存储 每 一 行 的 输入 么 ? 在 外 层 循 环 是 这 样 没 错 ， 但 在 
foreach 循 环 里 ， 它 却 能 存储 每 一 个 单词 。Perl 能 正确 处 理 为 了 新 用 途 而 重用 $_ ， 这 种 事 
并 不 奇怪 。 


对 foreach 循 环 来 说 ， 每 当 我 们 在 $_ 中 看 到 一 个 单词 时 ，$total 就 会 递增 ， 所 以 它 会 是 全 
部 单词 的 总 数 。 但 下 一 行 〈 是 这 个 例子 的 关键 ) 会 检查 单词 里 是 否 包含 任 何 非 单词 字符 
(字母 、 数 字 和 下 划 线 以 外 的 任何 字符 ) 。 因 此 如 果 其 中 出 现 了 像 Tom's、fu11-sized， 
或 者 后 面 紧 接着 逗号 、 引 号 或 任何 其 他 奇怪 的 字符 的 单词 ， 那 它 就 会 匹配 这 个 模式 ， 导 

致 跳 过 循环 的 其 余部 分 ， 继 续 处 理 下 一 个 单词 。 


注 17: “这 又 是 另 一 个 我 们 说 谎 的 地 方 。 事 实 上 next 会 跳 到 循环 中 常常 省 略 的 continue 块 的 开头 
处 。 参 见 perisym 文 档 了 解 详细 的 信息 。 


注 18: 如 果 忘 掉 了 也 别 太 担心 。 不 必 在 那些 在 perldoc 文 档 中 能 查 到 的 东西 上 花费 太 多 精力 。 
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不 过 如 果 找 到 了 一 个 普通 的 单词 ， 比 如 fred: 在 此 情况 下 ， 我 们 会 将 $valid 加 1， 连 带 
$count{$_ } 也 累加 以 记录 每 个 不 同 单词 出 现 的 次 数 。 所 以 ， 在 这 两 个 循环 执行 完毕 后 ， 
我 们 就 完成 了 对 用 户 指定 的 所 有 文件 中 的 每 一 行 里 每 个 单词 的 计数 。 


我 们 不 会 再 解释 最 后 儿 行 的 意思 。 到 了 这 里 ， 我 们 希望 你 已 经 有 能 力 对 付 这 样 的 程序 代码 。 


跟 1ast 一 样 ，next 也 可 以 用 在 5 种 循环 块 中 : for、foreach、while、unti1 或 是 裸 块 。 同 
样 地 ， 如 果 有 多 层 的 代 套 循环 块 ，next 只 会 对 最 内 层 起 作用 。 这 一 和 我 们 将 会 
看 到 如 何 突破 这 种 限制 。 


redo 操 作 符 

循环 控制 操作 符 的 第 三 个 成 员 是 redo。 它 能 将 控制 返回 到 当前 循环 块 的 顶端 ， 而 不 经 过 
任何 条 件 测试 ， 也 不 会 进入 下 一 次 循环 迭代 。 而 那些 用 过 C 这 类 语言 的 人 却 会 对 这 个 操 
作答 感 觉 卫生 。 因 为 那些 语言 里 没有 这 个 概念 。 来 看 具体 的 例子 ， 


# 打字 测验 
my @words = qw{ fred bazney pebbles dino Wilma betty }; 世 
my $exrTors = 0; 


foreach (6@wotds) { 

排 Tedo 指令 会 跳 到 这 里 禁 

print “Type the word '$ : ” 

chomp(my $try =《STDIN>); 

if ($try ne $ ) 1 
print "SorTry - That'"s not Tight.nXn"; 
$eTrYorS++; 
Tedo; # 跳 回 循环 的 顶端 

】 


print "You've completed the test， with $errors erToTs. An 3 


和 另外 两 个 操作 符 一 样 ，rfedo 在 5 种 循环 块 里 都 可 以 使 用 ， 并 且 在 循环 块 候 套 的 情况 下 
只 对 最 内 层 的 循环 起 作用 。 


next 和 redo 两 者 之 间 最 大 的 区 别 在 于 ，next 会 正常 继续 下 一 次 迭代 ， 而 redo 则 会 重新 执 
行 这 次 的 迭代 。 人 


foreach (1..10) ， 
pTint "IteTation number $_ .Ann ; 
pzint “Please Choose: 1ast，next，Tredo，oT none 0f the above? "; 
chomp (my $choice =《STDIN> ); 


pzjint “Nm ; 
last if $choice => /last/ii 
next jif $choice = /next/ii; 


Tedo jif $choice =~ /Tedo/jii; 
print “That wasn't ary of the choices..，onwardiNnMn ; 


】 


Print “That 's al1，folkslvn” ; 


如 果 不 键入 任何 字 ， 只 是 按 下 回 车 键 ， 则 循环 会 逐次 增加 计数 。 如 果 你 在 数字 4 显示 的 
时 候选 择 1ast， 那 么 循环 就 会 因此 而 结束 ， 你 将 看 不 到 数字 5， 如 果 你 在 数字 4 显示 的 时 
候选 择 next， 就 会 直接 跳 到 数字 5 而 不 打印 “onward” 信 息 ; 如 果 你 在 数字 4 显示 的 时 候 
选择 redo， 那 么 会 回 到 4 这 个 数字 重 来 。 


带 标签 的 块 

当 你 需要 从 内 层 对 外 层 的 循环 块 进行 控制 时 ， 请 使 用 标签 (label) 。 在 Perl 里 ， 标 签 和 

其 他 标识 符 一 样 ， 是 由 字母 、 数 字 和 下 划 线 组 成 的 ， 但 不 能 以 数字 开头 。 然 而 由 于 标签 

没有 前 置 符号 ， 就 可 能 和 内 置 函数 或 自 定 义 子 程序 名 混淆 。 所 以 将 标签 命名 为 print 或 - 

if 是 很 精 糕 的 选择 。 因 此 ，Larry 建 议 用 全 大 写字 母 命 名 标签 ， 这 样 不 仅 能 防止 它 跟 其 

4 符 相 互 冲突 ， 也 使 得 它 在 程序 中 能 突显 出 来 。 无 论 大 写 还 是 小 写 ， 标 签 总 是 罕见 
的 ， 只 会 在 很 少 的 Perl 程 序 中 出 现 。 


要 对 某 个 循环 块 加 上 标签 ， 通 常 只 要 将 标签 及 一 个 冒号 放 在 循环 前 面 就 行 了 。 之 后 在 循 
环 里 ， 若 有 需要 就 可 以 在 1ast、next 或 redo 的 后 面 加 上 这 个 标签 ; 
LINE: While (<>) { 


foreach (split) { 
last LINE if /END__/; # 跳出 标签 为 LINE 的 循环 


】 
为 了 增进 可 读 性 ， 通 常 的 建议 是 把 标签 靠 左 写 ， 哪 怕 当 前 的 代码 的 层次 缩 进 得 很 深 。 注 
意 ， 标 签 应 该 用 来 命名 整 块 代码 ， 而 不 是 用 来 标明 程序 中 的 某 个 具体 位 置 [ 往 !9] 。 在 上 
面 的 例子 里 ， 特 殊 的 _END_ 记 号 代表 了 输入 的 结束 。 只 要 看 到 这 个 记号 ， 程 序 就 会 名 
略 所 有 接 下 来 的 输入 行 ， 即 使 还 有 其 他 未 读 的 文件 。 


通常 应 该 以 名 词 来 为 循环 命名 二 201 。 也 就 是 说 ， 因 为 外 层 循环 是 每 次 处 理 一 行 ， 所 以 
可 称 之 为 LTNE。 如 果 也 要 为 内 层 循环 取 个 名 字 ， 我 们 可 能 会 叫 它 W0RD， 因 为 它 每 次 处 理 
一 个 单词 。 如 此 一 来 ， 写 出 next NORD ( 移 到 下 个 单词 ) 或 者 redo LINE ( 重 处 理 当前 这 
一 行 ) 之 类 的 代码 也 很 自然 。 


注 19: 这 上 毕 章 不 是 goto 语 向 。 


注 20: 起 码 ， 这 么 做 和 要 比 随意 命名 更 有 意义 。 你 就算 把 往 环 的 标 葡 设 为 XYZZY 或 是 PLUGH，Perl 也 
不 会 介意 。 可 要 是 不 蒜 悉 20 世 纪 70 年 代 的 Colossal Cave 游 戏 ， 就 没 人 会 知道 你 这 么 写 是 
什么 意思 。 
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条 件 操作 符 ?: 


当 Larry 考 虑 Pezl 要 提供 哪些 操作 符 时 ， 他 不 想 让 老 的 C 程 序 员 有 机 会 怀念 那些 C 有 而 Perl 
没有 的 东西 。 所 以 他 把 C 所 有 的 操作 符 都 搬 过 来 了 ![ 往 21 。 这 个 决定 导致 Perl 拥 有 了 C 语 
言 中 ， 最 让 人 困惑 的 操作 符 ， 也 就 是 条 件 操作 符 ?: 。 虽 然 它 可 能 令 人 困惑 ， 不 过 有 时 也 
相当 有 用 。 


条 件 操 作 符 就 像 将 一 个 if-then-else 控 制 结构 。 由 于 使 用 时 需要 三 个 操作 数 ， 所 以 有 时 也 
称 为 三 目 操 作 符 。 它 看 起 来 像 这 样 : 


expIession ? if true_expr : if _ false_expT 


首先 ，Per] 执 行 条 件 表 达 式 ， 看 看 究竟 是 真 还 是 假 。 如 果 为 真 ， 则 执行 冒号 前 的 表达 
式 ， 和 否则， 就 执行 冒号 后 的 表达 式 。 每 次 使 用 时 都 会 执行 间 号 右边 两 个 表达 式 中 的 一 
个 ， 另 一 个 则 会 被 跳 过 。 换 句 话说， 车 条 件 表达 式 为 真 ， 则 第 二 个 表达 式 会 被 求 值 并 返 
回 ， 而 忽略 第 三 个 表达 式 ， 若 条 件 表达 式 为 假 ， 则 忽略 第 二 个 表达 式 ， 而 对 第 三 个 表达 
式 求 值 并 返回 。 


在 下 面 的 例子 里 ， 子 程序 虹 s_weekend 的 执行 结果 决定 了 哪个 字符 串 表达 式 会 被 赋值 给 
变量 : 


my $location = 8&is_weekend($day) ? “home”: "work"; 
下 面 的 例子 中 ， 我 们 会 计算 并 输出 一 个 平均 值 ， 或 是 在 无 法 计算 时 用 一 行 连 字 符 代 替 ， 
my $average = $n ?($total/$n) : "----- 人 


print “Average: $average\n "; 
任何 使 用 ?: 操 作 符 的 表达 式 都 可 以 改写 成 if 结构 ， 但 常常 会 更 拖 理 宛 长 ， 


my $averagej 


计 ($n) { 

$average = $total / $n; 
} else { 

$average = “----- 汪 


print “Average: $average\n'"; 
这 可 能 是 你 喜欢 的 技巧 ， 用 来 写 出 干净 利落 的 多 路 分 支 : 


my $size = 
($width“ 10) ? “small"” : 


注 21: “严格 说 来 ， 他 其 实 舍 齐 了 在 Perl 中 无 用 的 操作 符 ， 例 如 将 数字 转换 成 变量 的 内 存 地 址 的 
操作 着 。 当 然 他 还 加 上 了 几 个 让 C 程 序 员 嫌 妒 的 操作 符 ， 比 如 字符 事 连 接 操 作 符 。 
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($uidth《 20) ? "medium” : 
($uwidth 《< 50) ? ”large” : 
"extTa-1arge"; # 默认 值 
实际 上 ， 这 是 由 三 层 筷 套 的 ? :操作 符 组 成 的 。 而 且 你 一 旦 明白 其 诀窍 所 在 ， 就 会 觉得 十 
分 简洁 。 


当然 ， 这 个 操作 符 并 不 是 非 用 不 可 ， 初 学 者 可 能 看 了 头疼 。 不 过 ， 迟 早 你 会 在 其 他 人 的 
程序 里 看 到 它 ， 而 我 们 希望 有 一 天 你 也 会 在 自己 的 程序 里 使 用 它 。 


和 已 JE 
逻辑 操作 符 
和 你 猜想 的 一 样 ，Perl 拥 有 全 套 的 逻辑 操作 符 ， 可 以 用 来 对 付 布尔 〈 真 / 假 ) 值 。 比 如 党 
用 来 组 合 罗 辑 测试 的 逻辑 AND (与 ) 操作 符 (8&) 和 逻辑 OR (或 ) 操作 符 (||) : 
if 〈$dessert{f cake' } 8& $desserzt{f ' ice cream }) {f 
# 两 个 条 件 都 为 真 
print "Hoorayl Cake and ice creamlNn ; 
} elsif ($dessert{ cake'} || $dessert{f ice cream') { 
# 至 少 一 个 条 件 为 真 
piint "That's still good...Nn ; 
} else { 


# 两 个 条 件 都 为 假 ， 什 么 也 不 干 〈 我 们 有 点 伤感 ) 


.Per] 在 这 里 可 能 会 走 捷径 。 如 果 罗 辑 与 操作 符 的 左边 表达 式 为 假 ， 整 个 表达 式 就 不 可 能 
为 真 ， 因 为 必须 两 边 都 为 真 才 会 得 到 真 。 因 此 这 时 不 必 再 检查 右边 的 表达 式 ， 从 而 避免 
对 其 求 值 。 针 对 下 面 的 例子 ， 请 考虑 $houz 是 3 的 时 候 会 怎样 : 


if( (9 《= $hour) 8& ($hour < 17) ) { 
print "Aren' tyYouU Supposed to be at work...?NAn ; 


相似 的 地 方 还 有 ， 若 逻辑 或 操作 符 的 左边 表达 式 为 真 ， 那 么 右边 也 会 免 于 求 值 。 请 郑 虐 
下 面 的 例子 中 $name 是 fred 会 如 何 : 


计 ( ($name eq "fred' ) || ($name eq “barney' ) ) 二 f 
print “You'ITe my kind of guylAn ; 


因为 这 样 的 行为 ， 这 种 操作 符 被 称 为 “短路 (shortrcircuit) ” 辑 操作 符 。 它 们 只 要 有 
可 能 就 会 走 捷径 来 获得 结果 。 事 实 上 ， 依 赖 这 种 短路 行为 的 代码 很 常见 ， 比 如 求 得 平均 
值 的 程序 : 


if ( ($n != 0) 88& (4total/gn < 5) ) { 
pzint "The average is below five.NAn ; 
】} 
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这 个 例子 里 ， 石 边 的 表达 式 只 有 在 左边 为 真 的 时 候 才 会 被 求 值 ， 因 此 程序 不 会 因为 意外 
地 “ 除 以 零 ” 而 崩溃 (我们 会 在 第 十 七 章 的 “捕获 错误 ”一 节 展 示 其 他 相关 的 例子 ) 。 


短路 操作 符 的 值 

和 C 这 类 语言 不 同 的 地 方 在 于 ，Perl 的 短路 操作 符 求 得 的 值 不 只 是 简单 的 布尔 值 ， 而 是 最 
后 运算 的 那 部 分 表达 式 的 值 。 这 提供 了 一 样 的 结果 ， 因 为 当 整 个 测试 应 该 为 真 时 ， 最 后 
部 分 的 值 总 是 真 ， 而 当 整 个 测试 应 该 为 假 时 ， 则 最 后 部 分 的 值 总 为 假 。 


但 是 这 个 返回 值 会 很 有 用 ， 我 们 常常 利用 逻辑 或 操作 符 提 供 变量 的 默认 取 值 : 
my $1ast_name = $1ast_name{f$someonej} 1 “(No last name) ; 


如 果 $someone 在 哈 希 中 并 不 存在 ， 左 边 的 计算 结果 就 是 undef， 也 就 是 假 。 所 以 逻辑 或 操 
作 符 必 须 对 右边 的 表达 式 求 值 ， 使 它 成 为 左 侧 变量 的 默认 值 。 这 个 习惯 用 法 中 ， 默 认 值 不 
只 是 为 undef 准 备 的 ， 也 是 为 所 有 逻辑 假 的 值 准 备 的 。 要 进一步 细 分 的 话 可 以 使 用 条 件 操 
作 符 : 


my $last_name = defined $last_name{f$someonej ? 
$1ast_name{$someone} : (No last name) ; 


这 太 麻 烦 了 ， 而 且 必 须 书 写 $1ast -manefsomeone] 丙 记 。 和 作 区 中 5.10 提 供 了 更 简洁 的 
写法 ， 请 看 下 一 节 。 


定义 或 操作 符 


前 一 节 我 们 谈 到 ll 操作 符 能 用 于 提供 变量 的 默认 值 。 仁 没有 考虑 到 特殊 情况 ， 就 是 已 定义 
的 假 值 也 可 能 会 被 意外 地 替换 为 默认 值 。 因 此 后 来 又 改 用 更 丑陋 的 条 件 操作 符 版 本 。 


为 了 避免 这 样 的 问题 ，Perl 5.10 引 入 了 定义 或 (defined-or) 操作 符 〈//) ， 在 发 现 左 边 
的 值 属 于 已 定义 时 进行 短路 操作 ，. 而 不 管 该 值 属于 逻辑 真 还 是 逻辑 假 。 所 以 就 算 有 人 的 
名 字 是 0， 代 码 也 能 正常 工作 ; 

use 5.010; 


my $last_name = $1ast_name{f$someone} //“(No last name) '; 


有 时 候 需 要 给 一 个 未 定义 变量 赋值 ， 若 已 定义 则 保留 原 值 。 比如 程序 常常 会 参考 
. VERB0SE 环 境 变 量 来 决定 是 否 打 印信 息 。 现 在 可 以 检查 %ENV 哈 希 中 VERB0SE 键 的 值 是 否定 
义 ， 车 未 定义 则 对 它 赋 值 : 


use 5.010; 
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my $Verbose = $ENV{VERBOSE} /7/ 1; 
pTint "IT can talk to youl\n” jif $yverbose; 


可 以 多 弄 几 个 值 来 测试 一 下 //， 看 看 它 会 在 哪 种 情况 下 返回 default: 
use 5.010; 


foreach my $try ( 0，undef，'0'，1，25 ) { 
print “Trying [$tzy] --->“”; 
my $value = $tzry // “default '; 
say"\tgot [$value]"; 
】} 


输出 显示 只 有 在 $try 是 undef 的 时 候 才 会 收 到 default 字 符 串 : 


Trying [0] ---> got [0] 

Trying [] ---> got [default] 

Tirying [0] ---> got [0o] 

Txying [1] ---> got [1] 

Trying [25] ---> got [25] 
有 时 候 你 想 要 对 一 个 未 定义 的 变量 赋值 。 比如 ， 当 你 开启 警告 功能 并 打印 一 个 未 定义 的 
值 ， 就 会 收 到 烦人 的 警告 消息 ， 


Use Warnings; 


my $namej # 没有 值 ， 未 定义 ! 

pTintf "%s"，$nanmeji ## 发 出 敬告: Use of uninitialized value in printf ..。 
当然 这 种 错误 常常 无 害 ， 可 以 忽略 。 但 如 果 确 实 要 打印 未 定义 的 值 ， 则 可 以 用 一 个 空 字 
符 串 来 代替 : 


USe 5.010; 
USe Warningsj 


my $namej ## 没有 值 ， 未 定义 1 
printf “"“%s"，$name // …; 


使 用 部 分 求 值 操 作 符 的 控制 结构 

之 前 看 到 的 4 个 操作 符 8&、| | 、// 和 ? :都 有 一 个 共性 : 根据 左边 的 值 决定 是 否 计算 右边 
的 表达 式 。 有 些 情 况 下 会 执行 的 表达 式 在 另外 的 情况 下 并 不 执行 。 因 此 这 些 操作 符 有 
时 也 被 称 为 “部 分 求 值 (partial-evaluation) 操作 符 ”。 部 分 求 值 操作 符 是 天 然 的 控制 
结构 ， 因 为 不 会 执行 所 有 的 表达 式 填 2] 。 并 非 Larry 热 囊 于 在 Perl 里 加 入 更 多 的 控制 结 


注 22: “看 到 这 里 之 前 ， 没 准 已 经 有 人 纳 冰 ， 为 什么 本 章 要 介绍 这 些 远 辑 操作 符 呢 ? 
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构 ， 而 是 因为 在 他 决定 将 部 分 求 值 操作 符 加 进 Perl 的 那 一 刻 ， 它 们 就 成 了 天 然 的 控制 结 
构 。 毕 竞 任何 能 激活 或 停 用 某 段 程序 代码 的 东西 都 算是 控制 结构 。 


好 在 只 有 当 受 控制 的 表达 式 有 副作用 时 才 会 引起 人 们 注意 到 这 点 ， 比 如 修改 变量 或 者 输 
出 信息 等 等 ， 像 下 面 这 段 代 码 ; 


(< Sn) 路 (和 = $n); 
你 应 该 会 立刻 注意 到 ， 逻 辑 与 的 运算 结果 并 没有 被 赋值 到 任何 地 方 [ 注 231 。 为 什么 呢 ? 


如 果 知 真 的 小 于 $n， 左 边 就 为 真 ， 所 以 会 执行 右边 的 赋值 运算 。 不 过 若是 $m 不 小 于 $n， 
则 左边 为 假 并 导致 右边 被 跳 过 。 所 以 ， 士 面 的 程序 代码 基本 上 和 下 面 这 一 行 做 的 是 同样 
的 事情 ， 但 后 者 显然 比较 容易 理解 


计 (和 < 4n){ 和 = 和 $n} 

或 者 采用 修饰 符 的 写法 ， 
4m = $nifd 和 nm $n; 

你 或 许 会 在 维护 某 个 程序 时 看 到 如 下 这 一 行 : 
(4m > 10) || print“why is it not greater?Nn"; 


如 果 4m 真 的 大 于 10， 那 么 左边 为 真 ， 因 此 逻辑 或 运算 就 算 完成 了 。 若 非 如 此 ， 则 左边 为 
假 ， 于 是 会 接着 输出 信息 。 跟 上 面 一 样 ， 这 其 实 可 以 (而且 很 可 能 应 该 ) 使 用 传统 的 写 
法 ， 可 能 是 用 if 或 unless 来 写 ! 往 24] 。 

-而 那些 特别 思维 奇特 的 人 甚至 学 会 了 用 读 英语 的 方式 来 读 这 几 行程 序 代码 。 比 如 ， 检查 
知 是否 小 于 $n， 若 是 如 此 ， 则 进行 赋值 ， 检 查 和 是 否 大 于 10， 若 非 如 此 ， 则 输出 信息 。 
会 以 这 种 方式 来 写 控制 结构 的 人 通常 以 前 是 C 程 序 员 或 是 早期 的 Perl 程 序 员 。 为 什么 他 们 
会 这 样 写 呢 ? 有 些 人 是 因为 抱 有 这 样 比较 有 效率 的 错觉 ， 也 有 些 人 认为 这 些 技巧 能 让 他 
们 的 程序 比较 酷 ， 还 有 一 些 人 只 是 模仿 别人 的 编程 风格 而 已 。 


条 件 操作 符 同 样 可 以 成 为 控制 结构 。 在 下 面 的 例子 里 ， 我 们 想 将 朱 赋 值 给 两 个 变量 中 较 
小 的 那个 : 


(和 < 和 n) ?( 哲 =$x) : (Sn = $x); 


注 23: “不 过 别 意 了 ， 如 果 它 是 子 程序 的 最 后 一 项 表达 式 的 话 ， 就 会 成 为 返回 值 。 
注 24: “大 多 数 这 类 风格 的 表达 式 都 是 原来 编写 sheH 脚 本 的 人 按照 以 往 的 习惯 带 过 来 的 。 
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如 果 物 比较 小 ， 它 会 得 到 $x， 否 则 的 话 ， 就 归 $n 所 有 了 。 
怕 辑 与 和 逻辑 或 操作 符 还 有 另 一 种 写法 。 你 可 以 将 它 写 成 单词 : and 和 or ! 往 235] 。 这 种 单 
词 操作 符 和 标点 符号 形式 的 效果 相同 ， 但 是 前 者 在 运算 优先 级 上 要 低 得 多 。 既 然 单词 操 
作 符 不 会 紧 紧 地 “ 粘 住 ” 附 近 的 表达 式 ， 它 们 需要 的 括号 可 能 就 会 少 一 些 ， 

知 《4n and 物 =$n;i # 写成 相应 的 诗 语句 版 本 会 更 好 
当然 ， 可 能 你 还 是 要 用 到 更 多 的 圆 括号 ， 因 为 优先 级 是 一 个 怪兽 。 如 果 对 优先 级 不 是 非 
常 有 把 握 ， 请 回来 使 用 圆 括号 。 然 而 单词 操作 符 的 优先 级 很 低 ， 所 以 你 通常 可 以 想象 它 
们 会 把 表达 式 拆 成 两 片 ， 先 做 左边 所 有 的 事情 ， 如 果 需 要 再 做 右边 所 有 的 事情 。 


尽管 以 逻辑 操作 符 作 为 控制 结构 可 能 令 人 困惑 ， 但 有 时 候 这 却 是 大 家 都 认可 的 程序 写 
法 。 比 如 下 面 就 是 打开 文件 时 的 习惯 写法 [性 26] ， 


open my $fh，”《` ，$fjilename 
or die“Can't open“$filename' : $1”; 


通过 使 用 低 优 先 级 的 短路 or 操作 符 ， 我 们 向 Perl 表 达 了 “open this file…… or die” 的 意 
思 。 如 果 文 件 打开 成 功 ， 就 会 返回 真 ， 此 时 or 就 不 必 执 行 了 ;但 如 果 文 件 打 开 失 败 ，or 
就 还 得 去 执行 右边 的 部 分 ， 也 就 是 丢 出 信息 并 通过 die 终 止 程序 。 

所 以 ， 用 这 些 操作 符 作为 控制 结构 是 Perl 习 惯用 语 的 一 部 分 ， 也 就 是 Perl 约 定 俗 成 的 


用 法 。 适 当 使 用 的 话 ， 程 序 会 更 具 威力 ， 否 则 ， 你 的 程序 将 会 难以 维护 。 请 别 滥用 
记 帮 全 0 


习题 

以 下 习题 答案 参见 第 323 页 上 的 “第 十 章 习题 解答 ”一 节 ， 

1 [25] 编 写 程序 ， 让 用 户 不 断 猜测 范围 从 1 到 100 的 秘密 数字 ， 直 到 猜 中 为 止 。 程 序 应 
该 以 神奇 公式 int(1+rand100) [ 往 238] 来 随机 产生 秘密 数字 。 当 用 户 猜 错时 ， 程 序 应 


该 回应 “Too hight” 或 “Too low”。 如 果 用 户 键入 quit 或 exit 等 字样 ， 或 是 键入 
一 个 空白 行 ， 程 序 就 应 该 中 止 。 当 然 ， 如 果 用 户 猜 到 了 ， 程 序 也 应 该 中 止 ! 


注 25， 其 实 还 有 低 优 先 级 的 not 操 作 符 (和 逻辑 否定 操作 符 ! 类 似 ) ， 另 外 也 有 很 少见 的 Xxor 异 或 
操作 符 。 


注 26: ”除非 使 用 autodie 编 译 指令 。 
注 27: “对 于 以 上 这 些 怪 异 代码 (除了 or die) ， 一 个 月 写 一 次 以 上 就 可 以 算是 滥用 。 
注 28: 若是 好 村， 可 请 参考 perlfjunac 文 档 中 关于 int 和 Tand 函 数 的 介绍 。 
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2 [10] 修 改 前 一 个 练习 的 程序 ， 打 印 额外 的 调试 信息 ， 例 如 程序 选择 的 秘密 数字 。 确 
保修 改 的 部 分 可 以 用 开关 控制 ， 而 且 调试 开关 即使 关上 也 不 会 产生 警告 信息 。 如 果 
在 使 用 Perl 5.10 或 更 新 的 版 本 ， 可 以 使 用 // 操 作 符 ， 否 则 请 使 用 条 件 操 作 符 。 

3 [10] 修 改 第 六 章 的 习题 3 中 的 程序 (环境 变量 列表 程序 ) ， 打 印 出 那些 未 定义 的 环 
境 变 量 〈 显 示 为 undefined value)。 可 以 在 程序 中 设 定 新 的 环境 变量 ， 来 测试 程序 
是 否 正确 打印 那些 具有 假 值 的 变量 。 如 果 在 使 用 Perl 5.10 或 更 新 的 版 本 ， 可 以 使 用 
// 操 作 符 ， 否 则 请 使 用 条 件 操作 符 。 
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第 十 一 章 


Per 模块 








关于 Perl 的 故事 远 不 止 我 们 在 这 本 书 里 提 到 的 ， 有 许多 人 还 用 它 来 做 各 种 有 趣 的 事 。 如 
果 碰 上 什么 坏 手 的 问题 难以 解决 ， 多 半 可 以 在 Perl 综 合 典藏 网 〈(CPAN) 上 找到 别人 现成 
的 解决 方案 。CPAN 在 世界 各 地 都 有 服务 器 与 镜像 站 点 ， 包 含 了 上 千 个 可 用 的 开源 Perl 模 
块 。 实 际 上 ， 自 从 Larry 把 它 设 计 为 可 扩展 的 语言 起 ， 绝 大 部 分 Perl 人 
形式 存在 的 。 


我 们 这 里 不 打算 教 你 如 何 编写 模块 ， 要 学 的 话 可 以 自己 看 “ 羊 驼 书 ”。 本 章 我 们 会 教 你 
.如 何 使 用 现 有 的 模块 ， 目 的 是 让 你 开始 熟悉 CPAN， 而 不 是 为 你 证 判 各 个 模块 的 优 劣 


寻找 模块 


Perl 模 块 有 两 种 来 源 : 一 种 是 随 Perl 发 行 版 本 一 同 打包 的 ， 所 以 安装 了 Perl 就 可 以 用 这 
些 模块 ， 另 一 种 则 需要 从 CPAN 下 载 ， 需 要 自己 安装 。 除 非特 别 说 明 ， 一 般 我 们 讨论 的 都 
是 随 Perl 一 同 发 布 的 模块 | 性 1 。 


要 找寻 那些 没有 随 Per] 发 布 的 模块 ， 可 以 到 CPAN Search 网 站 (pttp://searcp.cpan.org) 
根据 模块 类 型 浏览 或 者 直接 搜索 。 在 下 载 完整 的 模块 包 之 前 你 可 以 先 阅读 详细 的 模块 文 
档 。 当 然 ， 你 也 可 以 在 线 查 看 模块 包含 的 所 有 文件 。 此 外 还 有 许多 工具 可 以 提供 模块 内 
部 的 各 类 信息 供 你 参考 。 


注 1: 某 些 供应 商会 为 他 们 自己 的 Perl 发 行 版 提供 更 多 附加 的 模块 。 这 其 实 就 是 所 谓 的 第 三 方 模 
块 ， 即 供应 商 附送 的 模块 ， 就 像 小 礼品 一 样 。 此 外 ， 或 许 还 有 一 些 附加 的 工具 什么 的 已 
经 安装 到 你 的 操作 系统 中 ， 不 妨 找 找 看 。 
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在 找寻 模块 之 前 ， 请 先 检查 一 下 系统 上 是 否 已 经 安装 过 。 可 以 试 着 用 peridoc 命 令 打开 
模块 的 文档 看 看 。 比 如 Perl 自 带 的 CGI.pnm 模 块 (我 们 稍 后 会 在 “CGI 模块 ”一 节 详 细 介 
绍 ) ， 可 以 用 下 面 这 条 命令 打开 它 的 文档 阅读 : 


$ perldoc CGI 
改 用 不 存在 的 模块 名 称 试 试看 ， 你 会 看 到 一 条 错误 信息 。 


$ perldoc Ljlamas 
No documentation found for "LLamas "。 


你 的 系统 上 可 能 还 安装 有 其 他 格式 的 文档 ， 比 如 HTML 格 式 的。 当然 ， 前 提 是 模块 本 身 
提供 原始 文档 [性 ?1 。 


Perl 自 带 的 cpan 命 令 可 以 创建 zutobundle 文 件 下 3 ， 它 会 列 出 所 有 你 已 经 安装 了 的 模 
块 ， 包 括 版 本 号 ; 


$ cpan -a 


2 十 
安装 模块 
如 果 想 要 安装 系统 上 没有 的 模块 ， 一 般 来 说 ， 需 要 先 下 载 打包 发 布 的 模块 文件 包 ， 解 


压缩 后 在 shell 中 运行 一 系列 编译 安装 命令 。 具 体 步骤 和 注意 事项 可 以 查阅 模块 包 中 的 
RE4DME 文 件 或 LNS7477 文 件 。 


如 果 模 块 使 用 MakeMaker ! 往 4] 封装 ， 可 以 用 下 面 的 流程 安装 ， 


$ perl Makefjile.PL 
$ make jnstal] 


如 果 你 没有 权限 安装 模块 到 系统 级 目录 (安装 后 其 他 用 户 也 可 使 用 的 目录 ) ， 则 可 以 在 
Makefile.P1L 后 面 加 上 INSTALL_BASE 参 数 ， 指 定 以 你 的 用 户 身份 可 写 的 安装 目录 ， 


$ perl Makefile.PL INSTALL_BASE=/Users/fred/1lib 


汪 2: 我 们 在 “ 羊 驼 ' 书 ”中 会 介绍 Per] 文 档 的 各 方面 细节 ， 不 过 现在 ， 只 要 记 住 Perl 绝 大 多 数 
的 文档 都 是 写 在 和 源 代码 相同 的 那个 文件 里 的 。 

注 3， 所谓 的 bundle 文 件 ， 就 是 CPAN 客 户 端 可 以 用 来 重新 安装 当前 你 已 经 安装 过 的 那些 模块 的 
清单 ， 不 管 是 在 同一 台 机 器 上 ， 还 是 在 别 的 新 机 器 上 。. 

注 4: 它 其 实 是 一 个 Perl 自 带 的 模块 ExtUtils::MakeMaker。 它 提供 的 一 系列 工具 可 以 帮 你 生成 
模块 安装 文件 ， 保 证 其 中 的 安装 指令 过 应 Perl 和 操作 系统 两 方面 的 环境 要 求 。 








有 些 Perl 模 块 开 发 者 用 的 是 另 一 个 辅助 模块 Module: :Build 来 编译 并 安装 他 们 的 作品 。 此 
时 安装 疲 程 大 致 如 下 : 


$ perl Bujild.PL 
$ .VBujild instal1 


和 之 前 一 样 ， 你 可 以 指定 自己 的 安装 目录 : 
$ perl Build.PL“--instal1_base=</Users/fred/1ib 


有 些 模块 的 工作 依赖 于 其 他 模块 ， 所 以 必须 先 安装 好 这 些 前 置 模块 ， 才 能 继续 编译 安 
装 。 与 其 自己 手动 一 个 个 安装 模块 ， 不 如 用 Perl 自 带 的 CPAN.pm [ 往 3 。 你 可 以 在 命令 行 
启动 CPAN.pm 自 己 的 shell， 以 便 下 达 相 关 命 令 ， 


委 per1l -MECPAN -e shel1 


就 算 这 样 ， 写 起 来 还 是 有 些 麻烦 ， 所 以 一 段 时 间 之 前 本 书 作者 之 一 (brian d foy) 写 了 
个 小 小 的 脚本 程序 ， 叫 做 cpan， 它 也 是 Perl 自 带 的 并 且 通 常 跟 per! 及 一 些 相关 的 工具 安装 
在 一 起 。 现 在 ， 只 要 把 想 安 装 的 模块 的 名 称 列 在 它 后 面 就 行 了 : 


$ cpan Module: :CoreList LNP CGI: :prototype 


“我 没有 命令 行 ! ”或 许 你 会 这 样 抱 奶 。 如 果 你 使 用 的 是 ActiveState 公 司 发 行 的 Per] 版 
本 (有 针对 Windows、Linux 和 Solaris 的 版 本 ) ， 还 可 以 使 用 Perl 包 管理 器 (Perl Package 
Manager， 简 称 PPM)  [ 注 61 来 安装 模块 。 你 甚至 还 可 以 取得 ActiveState 出 品 的 CD 或 
DVD 。 除 了 上 面 提 到 的 ， 其 他 特别 的 操作 系统 也 应 该 会 有 各 种 安装 软件 的 方式 ， 
当然 也 包括 安装 Perl 模 块 在 内 。 


另外 还 有 一 个 非常 轻巧 的 工具 cpanm ( 它 是 cpanminas 的 简写 ) ， 不 过 它 目前 还 不 是 Perl 
自 带 的 工具 。 它 被 设计 为 零 配 置 、 轻 量 级 的 CPAN 客 户 端 ， 能 完成 绝 大 多 数 人 的 日 常 工 
作 。 你 可 以 从 jz 如:WxrlLus/cpamm 下 载 该 脚本 文件 到 本 地 。 





注 5: 扩展 名 “.pm” 表 示 “Perl Module”， 为 了 与 其 他 概念 相 区 分 ， 通 常 谈 到 一 些 流行 的 模 
块 时 都 会 带 上 “.pm”。 在 这 里 ，“CPAN (Perl 综合 典藏 网 ) ”和 “模块 CPAN” 不 是 同 
一 个 东西 ， 为 了 有 所 区 别 ， 我 们 把 后 者 称 为 “CPAN.pm”。 

注 6: 参见 PttPp:Waspn.activestaile.cot/4SPNdocs/h4ctivePertfaad/h4ctiyePerl-1pqg2.Hn0021。 


注 7， 你 可 以 建立 一 个 本 地 仓库 用 以 制作 你 自己 的 CD 或 者 DVD 光盘 。 尽 管 现在 CPAN 有 将 近 
4GB 大 ， 但 你 可 以 用 minicpan (创意 来 自 本 书 作者 ) 来 下 载 所 有 模块 的 最 新 版 本 ， 而 全 部 
这 些 只 要 500MB 就 够 了 。 参 见 CPAN: :Mini 模 块 。 
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有 了 cpanm 脚 本 后 ， 只 要 简单 地 告诉 它 你 要 安装 的 模块 名 称 即 可 : 


$ cpanm DBI WAN: :Mechanize 


安装 到 自己 的 目录 
Perl 模 块 安装 过 程 中 最 常 困扰 人 们 的 ， 是 CPAN 工 具 默 认 会 把 模块 安装 到 与 perl! 解 释 器 相 
同 的 目录 ， 但 你 可 能 没有 往 这 个 系统 级 别 的 目录 写 文件 的 权限 。 


”对 初学 者 来 说 ， 最 容易 的 解决 办 法 是 用 local1::1ib 模 块 安装 新 模块 到 自己 的 用 户 目录 
下 。 目 前 这 个 模块 还 不 是 Perl 自 带 的 ， 所 以 你 得 自己 从 CPAN 下 载 安装 。 这 个 模块 会 自动 
修改 某 些 环 境 变量 设 定 ， 借 此 影响 CPAN 客 户 端 安装 模块 的 位 置 。 在 命令 行 上 加 载 该 模 
块 而 不 做 任何 操作 ， 就 能 列 出 它 所 改动 的 所 有 环境 变量 设 定 ? ， 

$ perl -Mlocal::1ib 

eXport PERL_LOCAL_LIB_ROOT=”/Users/fred/Vper15"”; 

export PERL_MB_OPT="--instal1_base /USsers/fIed/per15”; 

export PERL_MM_OPT="INSTALL_BASE=/Users/fred/per15"; 


expoxt PERL5LIB="..。? 
export PATH="/Users/brian/Vper15/bjin:$PATH"; 


如 果 使 用 -I 开 关 ，cpan 客 户 端 就 会 参照 上 面 列 出 的 环境 变量 安装 指定 的 模块 [ 广 ?1 

$ cpan -I Set::Crossproduct 
相 比 之 下 ，cpanm 则 要 聪明 一 些 。 如 果 你 已 经 设置 了 那些 local::1ib 会 帮 你 设置 的 环境 
变量 的 话 ， 它 会 直接 按照 这 些 设 定安 装 。 如 果 没 有 ， 它 会 检查 对 默认 的 安装 目录 是 否 拥 
有 可 写 权 限 。 如 果 没 有 写 权 限 ， 它 会 自动 帮 你 加 载 l1ocal: :1ib 模 块 。 如 果 你 想 显 式 声明 
使 用 local::1ib， 只 需 这 样 做 : 

cpanm --10cal-lib HTML::pParser ， 
稍 有 经 验 的 用 户 会 配置 他 们 的 CPAN 客 户 端 ， 这 样 以 后 就 一 直 安 装 到 指定 目录 。 


你 可 以 在 CPAN.pm 配 置 中 设 定 下 面 这 些 参数 ， 以 后 使 用 CPAN.pm shell 时 就 会 自动 安装 新 模 
块 到 指定 的 私有 目录 。 为 了 兼容 ， 你 需要 配置 两 个 设 定 ， 一 个 给 ExtUti1s::Makemaker 
用 ， 一 个 给 Module: :Buil1d 用 


必 


注 8: 只 管 照 我 们 给 出 的 命令 裳 试 好 了 ， 有 虽然 我 们 还 没 介绍 过 命令 行 开 关 方面 的 知识 ， 不 过 所 
有 相关 的 内 容 都 在 periruz 文 档 中 ， 请 自行 查阅 。 

注 9: 你 需要 最 新 版 的 CPAN.pm， 或 最 新 版 的 App::Cpan 模 块 。 现 在 local;:1ib 提 供 的 功能 已 经 
整合 到 Perl S.14 里 面 了 。 
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上 cpan 

cpan> 0 Conf makep]1_azg INSTALL_BASE=/Users/fired/per15 
cpan> 0 conf mbuild_axzg“--install_base /UseTs/fTed/per15” 
cpan> 0 Conf commit 


注意 ， 这 里 设 定 的 是 和 local: :1ib 给 出 的 相同 的 目录 。 在 CPAN.pn 配 置 文件 中 加 上 这 些 设 
定 后 ， 每 次 安装 模块 都 会 自动 附加 这 些 安装 参数 。 


在 选 定安 装 Perl 模 块 的 路 径 之 后 ， 还 要 告诉 应 用 程序 到 哪里 才能 找到 这 些 模 块 文件 。 如 
果 用 的 是 local: :1ib， 只 需 简单 地 在 程序 内 部 加 载 该 模块 : 


# 在 你 的 Perl 程序 内 部 
USe 1ocal::1ib; 


如 果 你 装 在 其 他 地 方 ， 可 以 使 用 编译 指令 1ib 指 定 这 个 路 径 ， 


# 也 是 在 你 的 Pearl 程序 内 部 

use lib qw( /Users/fred/per]15 ); 
作为 起 步 ， 上 面 这 些 应 该 够 了 。 我 们 在 《Intermediate Perl》 一 书 中 会 有 更 深入 的 讨论 ， 
包括 教 你 编写 自己 的 模块 。 其 他 相关 信息 不 妨 参阅 perlfagg8 文 档 。 


使 用 简易 模块 


假设 在 程序 里 有 个 包含 路 径 的 长 文件 名 ， 比 如 /usr/iocalbirzVper， 而 你 希望 取出 文件 的 
、 基 名 (basename) 而 不 包括 目录 。 这 其 实 很 简单 ， 文 件 的 基 名 就 是 最 后 一 个 斜 线 之 后 的 
内容 〈 此 例 中 即 为 per) : 


my $name = “/UST/VLOcal/bin/Vper]1”"; 
(my $basename = $name) => 5#.#/##; # 烛 糕 ! 


和 你 之 前 看 到 的 一 样 ，Per1 会 先 在 圆 括号 中 进行 赋值 ， 然 后 再 进行 替换 操作 。 这 里 的 替 
换 操作 将 结尾 为 侨 线 的 字符 串 〈 也 就 是 文件 路 径 的 目录 部 分 ) 替换 成 空 字符 串 ， 这 样 就 
只 剩 下 基 名 了 。 或 者 采用 更 为 简洁 的 写法 ， 在 替换 操作 中 使 用 /rz 开关 : 

USe 5.014; 

”my $name = “/usr/1ocal/bin/per1l"; 

my $basename = $name =~ 5#.*/##T # 粳 糕 ! 
如 果 这 么 写 ， 看 起 来 好 像 可 以 正常 工作 。 好 肥 ， 这 只 是 看 起 来 ， 实 际 上 这 么 写 隐 含 着 三 
个 问题 。 


首先 ，Unix 上 的 文件 或 目录 名 称 可 能 会 包含 换行 符 (这 虽然 不 是 常常 发 生 ， 但 确实 可 
能 发 生 ) 。 由 于 正则 表达 式 的 点 号 〈.) 无 法 匹配 换行 符 ， 像 "/home/fred/fLintstone'\ 
n/brontosaurus" 这 样 的 文件 全 名 便 无 法 正常 运作 一 一 此 段 代 码 会 认为 文件 的 基 名 是 
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"flLintstoneNn/brontosaurus"。 你 可 以 用 模式 的 /s 选 项 加 以 修正 (如 果 你 考虑 到 这 种 微 
妙 而 又 罕见 的 情况 的 话 ) ， 写 成 ， s#.#/ 直 s。 


第 二 个 问题 是 ， 这 段 代码 仅 仅 考虑 了 Unix 下 的 情况 。 它 假设 目录 分 隔 符 总 是 Unix 风 格 
的 斜 线 ， 而 没有 考虑 其 他 系统 (比如 使 用 反 斜 线 或 冒号 ) 的 情况 。 也 许 你 自己 写 的 代码 
不 会 拿 到 那些 系统 上 运作 ， 不 过 大 多 数 有 用 (也 有 些 并 不 怎么 有 用 ) 的 脚本 会 考虑 兼容 
性 ， 就 算 拿 到 罕见 系统 上 也 能 运作 如 常 。 


第 三 个 ， 也 是 最 大 的 一 个 问题 是 ， 我 们 正在 试图 解决 别人 早已 解决 的 问题 。Perl 自 带 了 
相当 多 的 标准 模块 ， 它 们 作为 Perl 的 扩展 ， 增 加 了 许多 新 的 特性 和 功能 。 若 这 还 不 够 ， 
CPAN 上 还 有 更 多 好 用 的 模块 ， 每 周 都 有 许多 新 模块 加 入 ， 每 天 都 有 许多 老 模 块 更 新 。 
如 果 需 要 某 些 模块 提供 的 功能 ， 你 〈 或 者 是 你 的 系统 管理 员 ) 可 以 去 那里 下 载 安 装 ， 然 
后 直接 使 用 。 


我 们 会 在 本 章 后 续 的 章节 中 选取 一 些 随 Perl 一 同 发 布 的 简易 模块 ， 演 示 它 们 的 部 分 特性 
和 用 法 《事实 上 ， 这 些 模块 还 可 以 做 更 多 的 事 ， 眼 下 只 是 管中窥豹 ， 大 略 展示 一 下 如 何 
使 用 这 些 简易 模块 ) 。、 攻 


本 书 无 法 介绍 关于 模块 使 用 的 全 部 知识 ， 因 为 你 得 先 了 解 引用 和 对 象 之 类 的 高 级 主题 
才 有 办 法 使 用 某 些 模块 [过 101 。 这 些 主题 (以 及 该 如 何 创建 模块 等 等 ) 都 在 “ 羊 驼 书 ” 
《Intermediate Perl》 里 有 详细 精妙 的 冰释 。 而 本 节 则 可 以 厚 你 从 简易 模块 的 使 用 开 
始 起 步 。 想 要 进一步 了 解 某 些 有 趣 且 实 用 的 模块 ， 请 阅读 附录 B。 


File::Basename 模 块 


在 前 面 的 例子 中 ， 我 们 用 了 不 可 移植 的 方式 取得 基 名 。 这 种 解决 问题 的 方式 看 起 来 简 
洁 ， 却 可 能 因为 微妙 的 差异 而 失败 〈 比 如 这 里 就 假设 文件 名 或 目录 名 中 不 会 出 现 换行 
符 ) 。 而 且 我 们 还 “重新 发 明了 轮子 ”， 解 决 别人 早 就 解决 过 〈 也 调试 过 好 几 次 ) 的 问 
题 。 不 必 感 到 难为 情 ， 其 实 我 们 每 个 人 都 有 这 样 的 坏 毛 病 。 


要 从 文件 全 名 里 取出 基 名 ， 这 里 有 个 更 好 的 做 法 ， 就 是 使 用 Perl 自 带 的 File;:Basename 
模块 。 只 要 执行 perldocFile: :Basename 命 令 或 通过 特定 平台 的 文档 系统 ， 你 就 能 阅读 它 
的 使 用 说 明 。 这 是 使 用 新 模块 的 第 一 步 〈 没 准 也 会 是 第 三 步 与 第 五 步 ) 。 


注 10: ”如 同 我 们 在 后 面 几 页 中 将 要 看 到 的 一 样 ， 你 可 以 使 用 那些 采用 了 对 象 和 引用 的 模块 ， 但 
并 不 需要 完全 理解 这 些 高 级 主题 。 
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很 快 你 准备 好 要 使 用 它 ， 在 程序 开头 的 地 方 用 use 指 令 声 明 加 载 该 模块 址 11 ， 
use File::Basename; 


在 程序 编译 阶段 ，Perl 看 到 这 行 代码 后 ， 会 尝试 找寻 此 模块 的 源 代码 并 加 载 进来 。 接 着 
就 好 像 Perl 突 然 多 出 了 一 些 新 函数 ， 你 在 程序 接 下 来 的 部 分 都 可 以 随意 使 用 这 些 函 数 了 
[ 竺 13] 。 此 前 的 例子 中 我 们 需要 的 正 是 basename 函 数 ， 


Use File::Basename; 


my $name = “/usT/1ocal/binVperl”; 

my $basename = basename $namej # 返回 "perl” 
嗯 ， 这 样 虽然 在 Unix 上 行 得 通 ， 但 如 果 我 们 的 程序 在 MacPerl、Windows 或 是 VMS 等 
系统 上 运行 呢 ? 不 必 担心 ， 这 个 模块 会 判断 你 当前 用 的 是 哪 种 操作 系统 ， 并 且 使 用 该 
系统 默认 的 文件 命名 规则 (当然 ， 这 时 $name 里 存放 的 就 是 属于 该 系统 的 文件 名 字符 串 
了 ) 。 


此 模块 还 提供 了 一 些 其 他 函数 ， 比 如 dirname 函 数 可 以 从 文件 全 名 里 取得 目录 名 称 。 这 
个 模块 也 能 让 你 将 文件 名 和 扩展 名 分 开 ， 或 是 改变 默认 的 文件 名 规则 [ 注 3] 。 


- 仅 选 用 模块 中 的 部 分 函数 

如 果 你 想 在 已 有 的 程序 里 加 上 File::Basename 模 块 ， 却 发 现 该 程序 中 已 经 有 个 叫做 &dirname 
的 子 程序 -一 -也 就 是 阅 ， 程 序 里 现 有 的 子 程序 名 和 模块 里 的 某 个 函数 同名 。 考 14 。 现 在 麻 
烦 来 了 ， 通 过 使 用 模块 而 引入 的 dirname 也 是 个 Perl 子 程序 ， 该 如 何 与 自己 写 的 同名 子 程 
序 区 分 开 来 呢 ? 


只 需 在 File: :Basename 的 use 声 明 中 加 上 导入 列表 (import list) 来 指明 要 导入 的 函数 清 

单 ， 就 不 会 自动 导入 所 有 国 数 了 。 在 此 ， 我 们 只 需要 basename 国 数 : 

注 11: 一 般 我 们 会 在 文件 的 头 部 声明 加 载 这 些 模 块 ， 这 样 程序 维护 员 比 较 容 易 弄 清楚 到 旗 用 了 
哪些 模块 。 并 且 ， 如 果 你 要 在 新 机 器 上 安装 程序 的 话 ， 安 装 部 署 也 会 简单 很 多 。 

注 12: 你 猜 到 了 : 事情 并 非 如 此 简单 ， 有 时 候 得 用 包 名 和 及 其 完全 限定 名 称 。 当 你 的 主 程序 超 
过 几 百 行 〈 不 算 你 使 用 的 模块 的 代码 行 ) ， 成 为 较 大 的 Perl 程 序 后 ， 你 就 得 学 习 使 用 这 些 
高 级 特性 了 ， 请 从 阅读 perimaod 文 档 开 始 学 习 这 方面 的 知识 。 

注 13:;， 当 休 试图 处 理 从 Windows 机 器 获得 的 Unix 机 器 的 文件 名 时 (比如 通过 FTP 连 接 发 送 命令 的 
时 候 ) ， 你 可 能 需要 修改 文件 名 规则 。 

注 14: 好 吧 ， 你 可 能 确实 有 个 名 为 &dirname 的 子 程序 ， 但 它 做 的 却 是 另外 一 件 事 ， 这 里 只 是 举 
个 例子 。 因 为 某 些 模块 提供 数 百 个 新 泗 数 (这 是 真 的 | ) ， 使 得 命名 冲突 更 加 常见 。 
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Use File::Basename qw/ basename /; 
如 果 像 底下 这 么 写 的 话 ， 就 表示 我 们 完全 不 要 引信 任 何 新 了 图 数 : 

USe 1 qna/A 7/; 
我 们 也 常 写成 空 的 括号 表示 一 个 都 不 导入 ， 

use File::Basename 〔); 
“为 什么 要 这 么 做 呢 ? 曙 ， 这 条 指令 告诉 Perl 加 载 File::Basename 模 块 ， 这 和 前 面 一 样 ， 

但 不 要 导入 任何 国 数 名 称 。 导 入 函 数 的 目的 是 要 使 用 简短 的 函数 名 称 ， 像 basename 和 

dirname。 然 而 ， 哪 怕 不 导入 这 些 名 称 ， 我 们 还 是 可 以 通过 全 名 的 方式 来 调用 相应 的 函 
数 : 

use File::Basename qw/ /; # 不 导入 函数 名 称 . 

my $betty = 8&dirname($wilma); # 使 用 我 们 自己 的 子 程序 &dirname 

# 《 略 去 该 子 程序 的 具体 内 容 ) 


my $name =“/usT/1ocaL/binVyper1”; 
my $dirname = File::Basename::dirname $name; # 使 用 模块 中 的 dirname 困 数 


如 你 所 见 ， 模 块 里 的 dirname 国 数 的 全 名 是 File::Basename::dirname。 加 载 模块 后 ， 无 
论 是 否 导 入 dirname 这 种 简短 名 称 ， 我 们 都 可 以 随时 使 用 函数 全 名 的 方式 来 调用 。 ， 


大 多 数 情况 下 ， 使 用 模块 的 默认 导入 列表 就 行 了 。 不 过 ， 你 随时 可 以 用 自己 定义 的 列 
表 。 一 来 可 以 略 去 你 不 需要 的 默认 导出 函数 ， 二 来 还 可 以 按 需要 导入 那些 不 会 自动 导出 - 
的 函数 ， 因 为 大 多 数 模块 的 默认 导入 列表 里 都 会 省 略 某 些 〈 不 常 使 用 的 ) 函数 。 

没 错 ， 有 些 模块 默认 的 导入 列表 就 是 特别 长 。 所 有 模块 的 说 明文 档 是 都 应 该 列 出 可 供 导 


和 人 的 符号 《symbol) ， 如 果 有 的 话 ， 但 你 随时 都 可 以 用 自己 的 列表 覆盖 掉 默认 的 导入 列 
表 ， 就 像 上 面 File: :Basename 例 子 里 的 做 法 一 样 。 而 空 列表 意味 着 不 导入 任何 符号 。 


File::Spec 模 块 
现在 我 们 可 以 方便 地 提取 文件 名 的 基 名 了 。 不 光 如 此 ， 我 们 还 经 常 需要 把 基 名 和 目录 名 
结合 起 来 以 取得 文件 全 名 ， 比 如 /pomme/rootpeer/ice-2.1.rxt 这 样 的 文件 全 名 。 为 基 名 加 上 
前 缓 的 做 法 如 下 : 

use File::Basenamey; 


pIint “Please entez a filename: "; 
chomp(my $old_name = 《STDIN>); 
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my $dirname = dirname $ol1d_name; 
my $basename = basenanme 4$old_nanme; 


4basename =~” S/^/not/; # 给 基 名 加 上 前 绥 
my $new_name = “"$dirname/$basenane ”; 


Tename($o1d_name，$new_name) 
or warn “Can tt Tename “$old_name” to “$new_nane : $| 
看 出 问题 在 哪 了 吗 ? 和 前 面 一 样 ， 我 们 假设 文件 名 遵循 Unix 的 惯例 ， 即 目录 名 后 接着 斜 
线 ， 再 接着 文件 的 基 名 。 幸 好 ，Perl 也 提供 了 能 够 解决 这 个 问题 的 模块 。 


你 可 以 利用 File: :Spec 模 块 来 操作 文件 说 明 (file specification) ， 也 就 是 文件 名 、 目 录 
名 以 及 文件 系统 里 的 其 他 名 称 。 它 和 File::Basename 一 样 会 在 运行 时 判断 操作 系统 的 类 
型 ， 并 且 总 是 采用 正确 规则 。 但 File: 人 
模块 ， 这 点 和 File::Basename 不 同 。 


要 是 你 从 未 因 O0 热 潮 而 激动 ， 请 不 必 舌 心 。 如 果 你 了 解 对 象 是 什么 ， 那 非常 好 ， 你 可 
”以 使 用 这 个 OO 模块 ， 要 是 你 不 知道 何谓 对 象 ， 那 也 没关系 ， 只 要 照样 键入 我 们 展示 给 
你 的 代码 ， 它 就 会 正常 工作 ， 时 间 久 了 你 也 就 渐渐 明白 了 。 

在 这 个 例子 里 ，File::5Spec 的 说 明文 档 告 诉 我 们 应 该 使 用 catfile 这 个 方法 
(metpod) 。“ 方 法 ”是 什么 意思 呢 ? 就 目前 我 们 所 关心 的 来 说 ， 它 只 不 过 是 另 一 种 函 
数 而 已 。 不 同 的 是 ， 你 必须 通过 File: :Spec 的 全 名 方式 来 调用 方法 ， 例 如 : 


Use File::Spec; 
# 取得 $dirname 和 $basename 的 值 ， 方 法 同上 


my $new_name = File::Spec->catfjile($dirname，$basename); 


Tename($o1d_name，$new_name) 
or Warn “Can't Tename “401d_name” to “$new_name : $! ”; 
如 你 所 见 ， 调 用 方法 时 的 全 名 应 该 由 模块 的 名 称 〈 此 处 称 为 类 〈clasys) ) 、 一 个 瘦 箭 头 
(->) 以 及 方法 的 简短 名 称 构成 。 请 注意 ， 这 里 用 的 是 瘦 箭 头 ， 而 不 是 File::Basename 
里 的 双 贸 号 ， 看 到 站 箭头， 就 说 明 是 面向 对 象 的 写法 ， 后 面 是 要 调用 的 方法 名 。 


不 过 ， 既 然 我 们 通过 金 名 来 调用 方法 ， 那 么 模块 会 导入 哪些 符号 呢 ? 答案 是 什么 都 没 
有 。 对 OO 模块 来 说 ， 这 是 正常 的 做 法 。 这 样 一 来 ， 你 就 不 必 担 心 自 己 的 子 程序 会 跟 
File:;Spec 里 众多 方法 重 名 了 。 


你 会 讨厌 在 程序 里 使 用 这 些 模块 吗 ? 其 实 你 总 是 可 以 自行 决定 的 。 比 方 说 ， 假 设 你 确定 
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自己 的 程序 不 会 在 Unix 之 外 的 系统 上 运行 ， 你 又 完全 了 解 Unix 文 件 名 的 规则 和 注 5) ， 那 
么 你 也 许可 以 将 上 述 假设 写 死 在 程序 中 。 但 用 这 些 现成 模块 总 能 让 你 节约 不 少时 间 ， 轻 
松 构造 更 健壮 的 程序 ， 而 且 让 程序 移植 起 来 也 更 容易 ， 不 另 收费 。 


Path::Class 模 块 
虽然 File::Spec 模 块 能 很 好 地 处 理 不 同系 统 上 的 文件 名 规则 ， 不 过 用 起 来 还 是 有 些 麻 烦 
的 。 而 Per1 自 带 的 Path: :Class 模 块 则 提供 了 更 为 友好 的 操作 界面 : 

my $djir dir( quw(Users fred ]ib) ); 


my $subdir = $dir ->subdir( “per15”); # Users/fred/1Lib/yper15 
my $parzrent = $dir->parent; # Users/fred 


my $windir = $dir ->as_foreign( “Win32”); # Users\fred\lib 


CGl.pm 模 块 
如 果 要 创建 CGI 程序 (本 书 不 作 此 方面 介绍 ) ， 请 用 CGI,pm 模 块 [得 161] 。 就 算 你 明白 其 
至 精通 CGI 交互 过 程 中 的 所 有 细节 ， 也 不 必 在 自己 的 脚本 中 亲自 实现 那些 着 实 让 许多 人 
困扰 的 接口 操作 和 输入 信息 的 解析 。CGI.pm 的 作者 Lincoln Stein 已 花 了 相当 多 的 时 间 来 
确保 此 模块 在 大 部 分 服务 器 和 操作 系统 上 都 能 正常 运作 。 直 接 使 用 此 模块 ， 然 后 你 就 可 
以 腾 出 精力 专注 于 脚本 中 真正 有 趣 的 部 分 。 
CGI 模块 有 两 种 风格 ， 古朴 的 函数 接口 和 面向 对 象 接 口 。 我 们 将 使 用 前 一 种 。 在 此 
之 前 ， 你 可 以 照 着 CGI.pm 文 档 中 的 例子 依 样 画 蔓 芦 。 下 面 的 简单 CGI 脚本 会 解析 CGI 
输入 ， 并 以 纯 文 本 的 方式 来 显示 输入 字段 的 名 称 和 值 。 我 们 在 “导入 列表 ”中 使 用 
了 :al1， 这 是 一 种 导出 标签 (exporf rag) 写法 ， 用 来 指定 一 组 要 导出 的 函数 而 非 一 个 ， 
这 和 之 前 看 到 的 例子 有 所 不 同 “” 

#1Vusr/binVper] 

use CGI qw(:al1); 


pTint header("text/plain"); 





注 15: ”如果 你 不 知道 文件 名 和 目录 名 可 以 包含 换行 符 的 话 (我 们 之 前 提 到 过 的 ) ， 那 就 说 明 你 
不 完全 了 解 这 些 规则 ， 对 吧 ? 

注 16: ”和 CPAN.pm 模 块 类 似 ， 谈 到 它 的 时 候 我 们 会 把 CGI.pm 中 的 “.pm” 读 出 来 ， 以 区 别 于 CGI 
这 个 协议 。 

注 17: ”该 模块 还 提供 了 其 他 导出 标签 以 供 选 择 不 同 的 函数 分 组 。 比 如 说 ， 如 果 你 只 想 处 理 CGI 的 
那 一 组 ， 就 可 以 只 导入 :cgi; 若 要 产生 HTML 的 那 一 组 ， 只 导入 :htm14 就 可 以 了 。 进 一 
步 信息 请 参考 CGI.pm 文 档 。 
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foreach $param ( param() ) 荆 
print “"$param: ” 。param($paTam) .、"\n"; 


我 们 还 可 以 输出 HTMEL 格 式 的 结果 ， 看 起 来 就 会 更 花哨 些 ， 而 CGI.pm 有 许 许多 多 的 实 
用 函数 可 以 派 上 用 场 。 它 可 以 用 start_html1() 来 处 理 CGI 标 头 ， 也 就 是 HTML 文 档 开 头 
的 部 分 ， 另 外 还 有 为 数 众多 的 和 HTML 标 签 同名 的 函数 可 供 使 用 ， 比 如 用 hi() 处 理 H1 标 
人 禾 


Qi 
#1/usr/binyperl 
use CGI qw(:al1); 


print header()， 
start_htmL("This is the page title")， 
h1( "Input parameters”); 


my $1ist_jitems; 
foreach my $param ( param() ) { 
4$list_items .= 11(“"$pazam: ”。param($param) ); 


】 
print ul( $list_items ); 


print end_htm]l(); 


不 难 吧 ? 你 不 必 知 道 CGI.pm 是 怎么 办 到 这 一 切 的， 你 只 需 相信 它 做 得 到 就 行 了 。 一 
会 放手 让 CGI.pm 去 做 所 有 困难 的 事情 ， 你 便 能 专注 在 程序 里 有 趣 的 部 分 了 。 


CGI.pm 模 块 还 能 做 更 多 的 事 ， 像 处 理 cookie 信 息 、 页 面 重 定向 以 及 多 重 页 面 表单 等 等 。 
限于 篇 幅 ， 我 们 不 作 详 细 讨 论 ， 要 继续 学 习 的 话 可 以 参考 该 模块 文档 中 的 例子 。 


数据 库 和 DBI 模 块 


DBI (Database Interface， 数 据 库 接口 ) 模块 并 未 随 附 于 Perl 标 准 发 行 版 本 中 ， 但 它 却 
是 最 热门 的 模块 之 一 ， 因 为 许多 人 或 多 或 少 地 需要 连接 数据 库 。DBI 的 美妙 之 处 在 于 ， 
不 管 哪 种 常见 的 数据 库 ， 都 可 以 用 相同 的 接口 对 其 进行 操作 ， 从 CSV 文 件 到 Oracle 之 类 
的 大 型 数据 库 服务 器 。 它 还 具有 ODBC 驱 动 程序 ， 而 且 有 些 驱 动 程序 是 数据 库 厂 商 自 行 
提供 的 。 想 通盘 了 解 完 整 细 节 ， 请 参阅 《Programmingthe Perl DBI》 一 书 ， 由 Alligator 
Descartes 和 Tim Bunce 合 著 〈(O?Reilly) 。 你 也 可 以 访问 DBI 模 块 的 官方 网 站 /ztp:Wdp 
PerlLors/。 


安装 完 DBI 之 后 ， 你 还 必须 安装 DBD (Database Driver， 数 据 库 驱 动 程序 ) 。 在 CPAN 上 
搜索 一 下 就 能 得 到 一 长 串 DBD 列 表 。 请 安装 与 你 的 数据 库 服 务 器 对 应 的 驱动 程序 ， 并 确 
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定 其 版 本 与 你 的 服务 器 一 致 。 


DBI 是 面向 对 象 的 模块 ， 但 你 不 必 为 了 要 用 它 而 去 了 解 0O 编 程 的 全 部 细节 ， 学 习 文档 中 
的 例子 就 好 了 。 想 要 连接 数据 库 ， 你 得 用 use 加 载 DBI 模 块 并 调用 它 的 connect 方 法 : 
Use DBI; 


$dbh = DBI->Connect($data_source， 4$username， $password); 


变量 gdata_source 内 含 你 要 使 用 的 DBD 的 特定 信息 ， 所 以 你 需要 从 DBD 取 得 。 对 
PostgreSQL 数据 库 来 说 ， 驱 动 程序 是 DBD: :pg 模块 ， 所 以 $data_source 就 像 这 样 : 
my $data_source = "dbi:pg:dbname=name of_database"; 
连 上 数据 库 之 后 ， 就 可 以 进行 准备 查询 、 执 行 查询 以 及 读 取 查询 结果 等 一 系列 操作 : 
my $sth = $dbh->prepare("SELECT * FROM foo WHERE bl1a"); 
$sth->execute(); 
my @row_ary = $sth->fetchIrow_arrayj 
$sth->finjish; 
完成 工作 后 ， 断 开 与 数据 库 的 连接 : 
$dbh->disconnect(); 


当然 ， 还 有 许多 其 他 DBI 能 做 的 事 ， 具 体 请 参阅 它 的 文档 。 虽 然 有 些 内 容 可 能 已 经 过 
时 ， 不 过 《Programming the Perl DBI》 一 书 仍然 是 该 模块 的 优秀 指南 。 


处 理 日 期 和 时 间 的 模块 

能 够 处 理 日 期 和 时 间 的 模块 有 许 许 多 多 ， 不 过 最 为 流行 的 还 是 Dave Rolsky 编 写 的 
DateTime 模 块 。 它 提供 所 有 完整 的 解决 方案 ， 能 够 处 理 复杂 的 时 区 、 日 期 计算 以 及 其 他 
许多 事情 。 你 可 以 从 CPAN 获 取 该 模块 。 


最 常见 的 是 把 系统 中 以 秒 数 表 示 的 当前 时 间 《或 者 epoch 纪 元 时 间 ) 转换 成 DateTime 对 
象 ， 


my $dt = DateTime->from_epoch( epoch => time ); 
此 后 ， 通 过 各 式 对 象 方法 ， 即 可 获取 该 日 期 的 相关 信息 : 
pzxintf “%4d%02d%02d'  ，$dt->year，$dt->month，$dt->day; 


该 模块 还 有 格式 化 输出 的 时 间 字 符 串 的 方法 ， 
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pIint $dt->ymdij # 2011-04-23 
pITint $dt->ymd( 全 ); # 2011/704/23 
PTint $dt->ymd(…); # 20010423 


如 果 有 两 个 DateTime 对 象 ， 可 以 做 一 些 数 学 计算 ， 看 看 中 间 间 隔 了 多 久 。DateTime 是 通 
过 重 载 相应 的 数学 计算 操作 符 实 现 相 关 计算 的 : 


my $dt1 = DateTime->new( 


year => 1987， 
month ES 425 
day => 18， 
); 

my $dt2 = DateTime->new( 
year =》 2011， 
month =>》 5， 
day =>》 1， 
) 


my $duration = $dt2 - $dt1; 
由 于 日 期 计算 较为 复杂 ， 我 们 无 法 简单 地 把 一 个 间隔 时 间 表 示 成 单个 数字 ， 
my @units =* $duzration->in_units( qw(yeaz month day) )j 


printf“%d years，%d months，and %d days'，@units; 
根据 上 面 定义 的 两 个 日 期 ， 实 际 输出 的 间隔 时 间 为 ， 
23 years，4 months，and 14 days 


当然 我 们 也 可 以 把 一 个 间隔 时 间 加 到 某 个 日 期 对 象 上 。 比 如 要 求 得 $dt2 之 后 的 第 5 天 ， 
可 以 先 创建 一 个 间隔 日 期 对 象 ， 然 后 两 者 相 加 ， 

my $duration = DateTime::Duration->new( days =>》5 ); 

my $dt3 = $dt2 + $durationj 

print $dt3->ymdj # 2011-05-06 
如 果 只 是 用 到 DateTime 提 供 的 一 小 部 分 功能 ， 则 可 以 换 用 其 他 更 为 轻 使 的 模块 。 比 如 ， 
仅仅 需要 将 时 间 表 示 为 简单 的 对 象 ， 可 以 用 Time: :piece 模 块 ， 它 会 重 载 Perl 内 置 的 
localtime 函 数 ， 使 其 返回 一 个 时 间 对 象 ， 而 不 再 是 一 个 长 长 的 时 间 要 素 清 单 。 此 外 它 
还 提供 了 许多 便捷 的 函数 ， 用 于 按照 不 同方 式 表示 日 期 部 分 ,比如 将 月 份 表示 成 英文 名 
字 ， 而 不 仅仅 是 简单 的 数字 : 


Use Time::Piecej 


my $t = localtime; 
print “The month is ' 。 4t->month ."\n";  # 输出 The month is ApT 
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从 Perl 5.10 起 ，Time::Pjiece 模 块 就 是 Perl 自 捉 的 。 如 果 你 在 用 早期 版 本 ， 请 到 CPAN 下 
载 安装 。 了 


习题 
以 下 习题 答案 参见 第 325 页 上 的 “第 十 一 章 习题 解答 ”一 节 。 记 住 ， 你 需要 从 CPAN 下 载 
安装 某 些 模块 ， 某 些 习题 还 要 求 通过 查阅 CPAN 上 的 文档 来 熟悉 某 些 模 块 的 使 用 : 
1 [15] 从 CPAN 安 装 Module: :CoreList 模 块 。 输 出 Perl5.14 自 带 的 所 有 模块 的 清单 。 请 
建立 一 个 哈 希 ， 其 键 为 指定 Perl 版 本 自 带 模块 的 名 称 ， 可 以 使 用 下 面 这 行 代码 : 
my %modules = %{f $Module::CoreList::version{5.014} }5 
2 [20] 写 一 个 程序 ， 用 DateTime 模 块 计算 当前 日 期 和 输入 日 期 之 间 的 间隔 。 输 入 日 期 
时 ， 在 命令 行 依 此 键入 表示 年 月 日 的 数字 : 


$ perl duration.plL 1960 9 30 
50 yearzs，8 months，and 20 days 
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第 十 二 章 


文件 测试 





在 此 之 前 ， 我 们 已 经 演示 过 如 何 打开 文件 并 输出 文件 内 容 。 通 常 ， 打 开 文 件 的 操作 会 直 
接 创建 一 个 新 文件 ， 如 果 存 在 同名 文件 的 话 ， 还 会 清空 该 文件 的 内 容 。 有 些 时 候 ， 你 可 
能 需要 先 检查 一 下 同名 文件 是 否 存在 ， 有 些 时 候 ， 你 可 能 需要 看 看 给 定 的 文件 究竟 存在 
多 和 久 ;， 或 者 有 些 时候 ， 你 可 能 需要 比较 一 些 文件 的 大 小 ， 看 是 否 都 在 某 个 级 别 以 上 并 且 
是 否 已 经 有 一 段 时 间 无 人 使 用 。 对 于 这 类 信息 的 取得 ，Perl 有 一 套 完 整 的 文件 测试 操作 
符 可 供 使 用 。 


文件 测试 操作 符 

Perl 提 供 了 一 组 用 于 测试 文件 的 操作 符 ， 借 此 返回 特定 的 文件 信息 。 所 有 这 些 测 试 操 作 
符 都 写作 -X 的 形式 ， 其 中 X 表 示 特 定 的 测试 操作 《实际 上 还 有 一 个 字面 写作 -X 的 文件 测试 
操作 符 ， 所 以 泛 指 和 特 指 常常 容易 让 人 混交 ) 。 绝 大 多 数 测试 操作 符 返回 布尔 真 假 值 。 
虽然 称 它们 为 操作 符 ， 但 实际 上 它们 相应 的 文档 却 是 写 在 pertpunc 里 面 注 ]。 


在 运行 那些 会 创建 新 文件 的 程序 前 ， 应 先 检查 指定 文件 是 否 已 经 存在 ， 以 免 意外 获 盖 重 


要 电子 表格 或 是 宝贵 生日 档案 。 要 达到 此 目的 ， 我 们 可 以 用 -e 文 件 测试 操作 符 来 测试 文 
件 是 否 存在 : 上 


die "0opsi A file called '$filename' already exists.\n'" 
计 -e $filename; 


注 1: 要 查看 完整 清单 ， 可 以 通过 命令 行 执行 perldoc f -X。 这 里 的 -X 就 是 字面 上 的 ， 并 非 命令 


行 开关 。 它 表示 显示 所 有 文件 测试 操作 符 相 关 的 文档 ，peridoc 无 法 单个 列 出 其 中 某 个 测 
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请 注意 ， 这 个 例子 中 die 抛 出 的 消息 中 并 没有 包含 $! ， 因 为 我 们 现在 并 不 关心 系统 为 何 拒 
绝 文 件 访问 的 请 求 。 接 下 来 的 例子 是 要 测试 某 个 文件 是 否 能 保证 持续 更 新 。 我 们 测试 的 
是 一 个 已 经 存在 的 文件 句柄 ， 而 非 表 示 文 件 名 的 字符 串 。 假 设 我 们 需要 某 个 程序 的 配置 
文件 保持 每 周 或 每 两 周 更 新 一 次 也许 这 是 一 个 病毒 资料 库 ) 。 如 果 文件 在 过 去 28 天 里 
都 设 变动 过 ， 显 然 是 出 了 问题 。 这 里 的 -M 文 件 测试 操作 符 返回 的 是 文件 最 后 一 次 修改 时 
间 到 当前 程序 启动 时 刻 之 间 的 天 数 ， 说 起 来 有 点 饶舌 ， 胞 看 实 慰 代码 寺 明白 了 ， 用 超 来 
还 是 很 方便 的 ， 


Mazn “Config file is looking pietty oldlNn” 
if -M CONFIG > 28; 


第 三 个 例子 就 复杂 多 了 。 假 设 我 们 的 硬盘 空间 已 满 ， 但 是 不 想 花 钱 再 买 硬盘 ， 于 是 我 们 
决定 找 出 最 大 而 且 很 久 没 用 到 的 文件 ， 将 它们 移 到 备份 磁带 上 。 我 们 需要 遍历 文件 列 
表 喧 ， 看 看 哪些 是 大 于 100KB 的 文件 。 在 确定 某 个 文件 够 大 之 后 ， 我 们 还 得 确定 它 已 
经 超过 90 天 设 被 访问 过 (这 样 我 们 才 确 信 它 不 太 常 用 ) ， 才 可 以 将 它 移 到 备份 磁带 。 这 
里 的 -s 文 件 测 试 操作 符 返 回 的 并 不 是 布尔 真 假 值 ， 而 是 以 字 节 计 算 的 文件 大 小 〈 已 经 存 
在 的 空 文件 大 小 可 以 是 零 字 节 ) 二 3 

my @original_ files = qwW/ fred barney betty wilma pebbles dino bamm-bamm /; 

my @big_old_files; # 将 要 移 到 备份 磁带 上 的 既 大 且 旧 的 文件 列表 

foreach my $filename (@original_files) 【 


push @big_old_files，$filenanme 
if -s $filename > 100_ 000 and -A $filename > 90; 
】} 


所 有 这 些 文件 测试 符 看 起 来 都 是 同一 种 形式 ， 连 字符 加 上 一 个 字母 ， 字 母 表 示 测 试 的 意 
义 ， 后 面 跟 上 要 测试 的 文件 名 或 文件 句柄 。 大 多 数 文件 测试 操作 符 返 回 的 都 是 布尔 真 假 
值 ， 少 数 返 回 的 是 表示 特别 意义 的 数据 。 要 学 习 了 解 其 他 特例 ， 请 参阅 表 12-1 中 的 完整 
清单 并 仔细 阅读 后 面 关于 特例 的 说 明 。 


表 12-1: 文件 测试 操作 符 及 其 意义 





<- 文件 或 目录 ， 对 目前 《有效 的 ) 用 户 或 组 来 说 是 可 读 的 


-W 文件 或 目录 ， 对 目前 《有效 的 ) 用 户 或 组 来 说 是 可 写 的 








注 2 侨 际 上 并 不 会 像 此 例 那 禅 在 数组 中 放置 一 连 事 的 文件 。 一 般 来 说 ， 会 使 用 “文件 名 通 配 
(glob) ”或 是 “目录 向 柄 (directory handle) ”来 从 文件 系统 中 读 取 。 因 为 这 里 还 没 提 
到 目录 名 桶 (参见 第 十 三 章 ) ， 我 们 只 好 以 列表 来 示意 了 。 


注 3: 还 有 种 比 这 个 例子 效率 更 高 的 实现 方法 ， 你 会 在 本 章 末 看 到 。 
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表 12-1: 文件 测试 操作 符 及 其 意义 〈 续 ) 





了 文件 或 目录 ， 对 目前 有效 的 ) 用 户 或 组 来 说 是 可 执行 的 


二 文件 或 目录 ， 由 目前 (有效 的 ) 用 户 拥有 

-R 文件 或 目录 ， 对 实际 的 用 户 或 组 来 说 是 可 读 的 

_ 文件 或 目录 ， 对 实际 的 用 户 或 组 来 说 是 可 写 的 

-X 文件 或 目录 ， 对 实际 的 用 户 或 组 来 说 是 可 执行 的 

-0 文件 或 目录 ， 由 实际 的 用 户 拥有 

-e 文件 或 目录 ， 是 存在 的 

-z 文件 存在 而 且 没有 内 容 〈 对 目录 来 说 永远 为 假 ) 

-s 文件 或 目录 存在 而 且 有 内 容 《返回 值 是 以 字 池 为 单位 的 文件 大 小 ) 
-f 是 普通 文件 

-d 是 目录 

这 是 符号 链接 

-5S 是 socket 类 型 的 文件 

-p 是 命名 管道 ， 也 就 是 先入 先 出 (fifo) 队列 

-b 是 块 设备 文件 〈 比 如 某 个 可 挂 载 的 磁盘 ) 

-c 是 字符 设备 文件 〈 比 如 某 个 IO 设备 ) 

-- 文件 或 目录 设置 了 setuid 位 

-g 文件 或 目录 设置 了 setgid 位 

-k 文件 或 目录 设置 了 sticky 位 

-t 文件 句柄 是 TTY 设备 〈 类 似 系统 函数 isatty() 的 测试 ， 不 能 对 文 
件 名 进行 此 测试 ) 

5 看 起 来 像 文 本 文件 

-B 看 起 来 像 二 进 制 文件 

-NM 最 后 一 次 被 修改 后 至 今 的 天 数 

-A 最 后 一 次 被 访问 后 至 今 的 天 数 

-C 最 后 一 次 文件 节点 编号 (inode) 被 变更 后 至 今 的 天 数 





-rz、-w、-x 和 -o 这 几 个 操作 符 测试 的 是 有 效用 户 或 组 的 ID [ 往 9， 看 它们 是 否 有 相应 的 文 


注 4:; ”测试 操作 符 -o 及 -0 只 管用 户 ID， 而 不 理会 组 ID。 
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件 权 限 。 所 谓 有 效用 户 ， 指 的 是 “负责 ”运行 这 个 程序 的 人 纤 53。 这 些 测 试 会 查看 文件 
的 “权限 位 (permission bit) ”， 以 此 判断 哪些 操作 是 允许 的 。 如 果 系 统 使 用 访问 控制 
列表 (Access Control List， 简 称 ACL) ， 那 么 测试 将 根据 该 列表 进行 判断 。 上 述 测 试 只 
能 返回 系统 对 操作 的 看 法 ， 但 受 实际 情况 限制 ， 人 允许 的 事 未 必 真 的 可 行 。 比 如 说 ， 对 某 
个 放 在 CD-ROM 中 的 文件 做 -w 测 试 可 能 为 真 ， 可 实际 上 你 却 无 法 修改 此 文件 ， 而 对 某 个 
空 文件 进行 -x 测 试 时 也 可 能 会 返回 真 ， 但 实际 上 空 文件 又 怎么 执行 昵 ? 


如 果 文 件 内 容 不 为 空 ，-s 会 返回 表示 文件 大 小 的 数字 ， 单 位 是 字 节 。 若 仅 用 于 条 件 判 
断 ， 非 零 数 字 亦 代表 真 值 。 


Unix 文 件 系统 上 入 9 有 且 仅 有 7 种 文件 类 型 ， 分 别 可 由 以 下 7 种 文件 测试 操作 符 代表 ，; 
-f、-d、-1、-S、-p、-b 和 -c。 任 何 条 目 都 应 该 符合 其 中 一 种 。 但 如 果 你 有 指向 某 个 文 
件 的 符号 链接 ， 那 么 -f 和 -1 都 会 为 真 。 所 以 ， 如 果 你 想 要 知道 某 个 文件 是 否 为 符号 链 
接 ， 最 好 先 测试 -1 (我 们 将 会 在 第 十 三 章 的 “链接 与 文件 ”学 到 更 多 关于 符号 链接 的 知 


识 ) 。 


文件 时 间 测试 操作 符 ，-M、-A 和 -5 (是 的 ， 都 是 大 写 ) ， 分 别 会 返回 从 该 文件 最 后 一 次 
被 修改 、 被 访问 或 者 它 的 inode 被 更 改 后 到 现在 的 天 数 星 ] (inode 是 文件 系统 的 索引 条 
目 ， 其 中 记录 了 某 个 文件 的 所 有 属性 信息 ， 但 文件 内 容 除外 ， 相 关 细 节 请 参阅 系统 函数 
stat 的 文档 ， 或 找 本 详细 介绍 Unix 内 部 细节 的 书 看 看 ) 。 天 数 的 值 用 浮 点 数 表 示 ， 如 果 
是 两 天 零 一 秒 之 前 被 修改 的 文件 ， 可 能 会 返回 像 2.00001 这 样 的 值 (这 里 所 说 的 天 数 并 “ 
不 是 平常 所 说 的 自然 天 。 举 例 来 说 ， 假 如 你 在 凌晨 1:30 的 时 候 检查 某 个 曾 在 午夜 前 一 小 
时 修改 过 的 文件 ， 则 -WM 的 返回 值 大 约 是 0.1， 也 就 是 过 去 的 小 时 数 换算 到 天 的 数字 ， 这 是 
一 个 相对 时 间 ) 。 


在 检查 文件 的 时 间 记录 时 ， 可 能 会 得 到 像 -1.2 这 样 的 负数 ， 这 表示 文件 最 后 一 次 被 访问 
的 时 间 发 是 在 未 来 30 小 时 后 ! 实际 上 ， 程 序 开始 运行 的 那 一 刻 会 被 记录 下 来 作为 检查 时 





注 5， 好 学 的 人 请 注意 ， 相 应 的 -R、- 册 、-X 及 -0 测试 使 用 的 是 实际 用 户 或 组 的 ID。 这 在 你 的 程 
序 以 set-ID 方 式 运行 时 相当 重要 。 在 这 种 情况 下 ， 它 是 调用 程序 的 用 户 的 ID。 请 参阅 详细 
介绍 高 级 Unix 程 序 设计 的 书 ， 进 一 步 了 解 set-ID 程 序 的 概念 。 

注 6: 这 在 许多 非 Unix 文 件 系统 下 也 行 ， 但 不 是 每 种 文件 测试 在 任何 地 方 都 有 意义 。 比 如 非 
Unix 系 统 上 大 概 惑 没有 块 设备 文件 。 

注 7; 在 非 Unix 系 统 上 可 能 会 有 所 不 同 ， 因 为 有 些 系统 记录 的 时 间 与 Unix 不 同 。 例 如 在 某 些 系 
统 上 ，ctime 字 段 〈( 即 -C 测 试 操作 符 所 查询 的 字段 ) 是 文件 的 创建 时 间 (Unix 并 不 跟踪 这 
个 时 间 ) ， 而 不 是 inode 改 变 的 时 间 。 请 参阅 periport 文 档 。 








218 | 第 十 二 章 


闻 的 原点 [a， 所 以 负 值 可 能 表示 已 经 运行 很 久 的 程序 找到 某 个 刚刚 才 被 访问 过 的 文 
件 。 或 者 是 谁 不 小 心 (也 可 能 是 故意 的 ) 将 文件 属性 设 成 未 来 时 间 的 。 


至 于 -T 和 -8， 则 会 测试 某 个 文件 是 文本 文件 还 是 二 进 制 文件 。 但 是 对 文件 系统 有 一 点 经 
验 的 人 都 知道 ， (至 少 在 与 Unix 类 似 的 操作 系统 下 ) 没有 任何 位 会 告诉 你 它 是 二 进 制 文 
件 还 是 文本 文件 一 一 那么 Perl 是 如 何 办 到 的 呢 ? 答案 是 Perl 会 作弊 : 它 先 打开 文件 ， 检 查 
开头 的 几 千 个 字 节 ， 然 后 作出 一 个 合理 的 猜测 。 如 果 它 看 到 很 多 空 字 节 、 不 寻常 的 控制 
字符 而 且 还 设 定 了 高 位 〈 即 第 八 位 是 1) 的 字 节 ， 和 那么 它 看 起 来 就 是 二 进 制 文件 ， 如 果 
文件 里 没有 许多 奇怪 的 东西 ， 而 且 它 看 起 来 像 文本 文件 ， 那 就 猜测 为 文本 文件 。 如 你 所 
料 ， 这 样 总 会 有 猜 错 的 时 候 。 所 以 这 种 猜测 并 不 完美 ， 不 过 如 果 你 只 想 把 编译 过 的 文件 
和 源 文件 分 开 ， 或 是 将 HTML 文 件 和 PNG 文 件 分 开 ， 那 么 这 两 种 测试 操作 符 还 算 够 用 。 


你 可 能 会 以 为 -T 和 -B 出 现 的 结果 必定 相反 ， 因 为 文件 车 不 是 文本 文件 ， 就 该 是 二 进 制 文 
件 。 但 是 ， 有 两 种 特殊 情况 会 让 测试 结果 相同 : 如 果 文 件 不 存在 ， 两 者 都 会 返回 假 ， 因 
为 它 既 不 是 文本 文件 也 不 是 二 进 制 文件 ， 在 空 文件 的 情况 下 ， 两 者 都 会 返回 真 ， 因 为 它 
既是 空 的 文本 文件 也 是 空 的 二 进 制 文件 。 


关于 -t 的 测试 ， 如 果 被 测试 的 文件 句柄 是 一 个 TTY 设 备 ， 测 试 的 返回 值 就 为 真一 简 
单 来 说 ， 如 果 该 文件 可 以 交互 ， 就 判断 为 TTY 设 备 ， 所 以 普通 文件 或 管道 (pipe) 都 可 
以 排除 在 外 。 当 -tsTDIN 返 回 真 的 时 候 ， 通 常 意味 着 可 以 用 交互 方式 向 用 户 提出 一 些 问 
题 ， 若 返回 值 为 假 ， 那 就 表示 输入 来 源 是 个 普通 文件 或 是 管道 ， 而 不 是 键盘 [91， 


至 于 其 他 文件 测试 操作 符 ， 如 果 你 不 知道 它们 的 意义 也 不 用 担心 一 一 要 是 你 设 听 说 过 ， 
多 半 也 不 太 会 用 到 。 但 如 果 你 感 兴趣 的 话 ， 找 一 本 详细 介绍 Unix 程 序 设计 的 书 吧 。 (在 
非 Unix 系 统 中 ， 这 些 测试 都 会 尽力 模仿 Unix 系 统 的 实现 ， 要 是 碰 上 某 个 无 法 实现 的 功 
能 ， 就 会 返回 undef。 通 常 你 都 可 以 猜 到 实际 测试 的 结果 。) 





如 果 文 件 测 试 操作 符 后 面 没 写 文件 名 或 文件 句柄 (也 就 是 只 写 了 -i 或 -s) ， 那 么 默认 的 
操作 数 就 是 $_ 里 的 文件 名 。 文 件 测试 操作 符 -t 是 个 例外 ， 因 为 此 项 测试 对 文件 名 〈 不 可 
能 是 TTY) 而 言 无 用 武之 地 ， 所 以 默认 情况 下 它 测试 STDIN。 所 以 ， 若 要 测试 一 连 串 的 


- 文件 名 来 找 出 哪些 是 可 读 的 话 ， 可 以 这 么 做 : 


foreach (6@lots_of_filenames) { 
print "$_ is readable\n" if -T; # 亦 即 -T 4_ 





注 8: ”这 取决 于 $^T 变 量 的 值 。 如 果 想 取得 相对 于 不 同 起 始 时 刻 的 天 数 ， 可 以 改变 它 的 值 (可 用 
$^T = time; 这 样 的 语句 ) 。 

注 9: 也 许 采用 I0: :InteTactive 模 块 加 以 判断 才 是 更 好 的 选择 ， 因 为 实际 情况 可 能 非常 繁杂 多 
变 。 该 模块 文档 中 对 它 能 处 理 的 备 种 情形 有 专门 的 阐述 。 
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} 


但 如 果 省 略 参数 ， 请 特别 小 心 ， 任 何 接 在 文件 测试 操作 符 之 后 的 ， 就 算 看 起 来 不 像 ， 也 
会 被 当 作 要 测试 的 目标 。 比 方 说 ， 你 想 知道 以 KB 为 单位 〈 而 不 是 以 字 节 为 单位 ) 的 文件 
大 小 ， 那 么 你 可 能 会 直接 把 -s 操 作 的 结果 除 以 1000 (或 是 1024) ， 像 这 样 

# 文件 名 故 在 $ 里 

my $size in K = -5s / 1000; # 和 粒 | 
当 Per]l 的 语法 解析 器 看 到 斜 线 时 ， 不 会 认为 那 是 一 个 除法 操作 符 。 因 为 它 在 看 到 -s 操 作 
符 后 ， 就 要 尝试 寻找 它 的 可 选 操作 数 ， 也 就 是 要 测试 的 文件 ， 现 在 它 看 到 的 是 一 个 斜 线 
开头 的 ， 像 是 某 个 正则 表达 式 ， 但 却 找 不 到 结尾 ， 于 是 报错 。 要 避免 这 种 问题 ， 可 在 文 
件 测试 操作 符 的 两 边 加 上 括号 ， 


my $size_ in _k = (-S) / 1024; # 默认 使 用 $_ 作 测试 
当然 ， 明 确 写 上 要 测试 的 文件 总 是 安全 稳妥 的 做 法 。 


测试 同一 文件 的 多 项 属性 
如 果 要 一 次 测试 某 个 文件 的 若干 属性 ， 可 以 将 各 个 文件 测试 组 成 一 个 远 辑 表达 式 。 比 如 
我 们 只 想 操作 那些 既 可 读 又 可 写 的 文件 ， 可 以 依次 检查 这 两 个 属性 并 用 and 合 并 起 来 ; 


评 (-TY $file and -WwW $file) { 
让 


这 可 是 个 非常 耗费 资源 的 操作 ， 每 次 进行 文件 测试 时 ，Perl 都 得 从 文件 系统 中 取出 所 有 
相关 信息 (实际 上 ， 每 次 Perl 都 在 内 部 做 了 一 次 stat 操 作 ， 下 节 我 们 就 会 介绍 ) 。 虽 然 
在 做 -测试 的 时 候 ， 我 们 已 经 拿 到 了 所 有 相关 信息 ， 可 到 了 做 -w 测 试 的 时 候 ，Perl 又 要 
去 取 一 遍 相同 的 信息 。 多 浪费 啊 ! 如 果 是 对 海量 文件 测试 各 种 属性 ， 性 能 问题 就 会 非常 
明显 。 . 、 


Perl 有 个 特别 的 简写 可 以 避免 这 种 重复 劳动 。 它 就 是 虚拟 文件 句柄 _〈 就 是 那个 下 划 线 字 
符 ) ， 它 会 告诉 Perl 用 上 次 查询 过 的 文件 信息 来 做 当前 测试 。 现 在 ，Perl 只 需要 查询 一 次 
文件 信息 即 可 : 


计 (-T 4$4file and -WwW _) { 
ee 


我 们 并 非 只 能 在 一 条 语句 中 连续 使 用 _。 以 下 就 是 在 两 条 if 语句 中 使 用 的 例子 : 


if (-T $file) { 
print“"The file is ieadablelAn ; 
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计 (-w _)1{ 


print“The file is NTitablelNn ; 


这 么 用 的 时 候 ， 必 须要 清楚 代码 最 后 一 次 查询 的 是 否 为 同一 个 文件 。 车 是 在 两 个 文件 测 
试 之 间 又 调用 了 某 个 子 程序 ， 那 么 最 后 一 个 查询 的 文件 可 能 会 变化 。 比 如 说 ， 下 面 的 例 
子 调用 lookup 子 程序 ， 在 其 内 部 对 另 一 个 文件 做 了 一 次 测试 。 当 子 程序 返回 后 ， 再 执行 
文件 测试 时 ， 文 件 句 柄 _ 代 表 的 就 不 是 原先 的 $file， 而 是 $other file 


计 (-T $file) { - 
print“The file is Teadablel\n ; 


lookup( $other_file ); 


诗 (-w _) { 
print "The file is wzritablelNn"; 


sub lookup { 
Tetuzn -WwW $_ [0]; 


栈 式 文 件 测试 操作 符 


在 Perl 5.10 之 前 ， 如 果 要 一 次 测试 多 个 文件 属性 ， 只 能 分 开 为 若干 独立 的 操作 ， 哪 怕 是 
为 了 节省 点 力气 用 虚拟 句柄 _ 也 不 例外 。 比 如 说 ， 我 们 想 要 测试 某 个 文件 是 否 可 读 写 ， 
就 必须 分 别 做 可 读 测 试 和 可 写 测 试 

if (-r $file and -w _) { 


print “The file is both readable and wiitablel\n"; 
】 


若 能 一 次 完成 就 好 了 。 从 Perl 5.10 开 始 允 许 我 们 使 用 “ 栈 式 (stack) ”写法 将 文件 测 
试 操作 符 排 成 一 行 ， 放 在 要 测试 的 文件 名 前 : 


use 5.010; 


if (-wW -1 $file) { 
print “The file is both readable and WTitablel\n"; 


} 
这 个 使 用 栈 式 写法 的 例子 和 上 一 个 例子 做 相同 的 事 ， 仅 是 语法 上 有 所 改变 。 注 意 ， 使 用 
栈 式 写法 时 ， 人 靠近 文件 名 的 测试 会 先 执行 ， 次 序 为 从 右 往 左 。 不 过 通常 测试 次 序 不 是 很 
重要 。 
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对 于 复杂 情况 来 说 ， 这 种 栈 式 文件 测试 特别 好 用 。 比 如 我 们 想 要 列 出 所 有 可 读 、 可 写 、 
可 执行 并 隶属 于 当前 用 户 的 所 有 目录 ， 只 需要 按 恰当 的 顺序 摆 上 这 些 测试 操作 符 : 


use 5.010; 


计 (-r -WwW -x -0 -d $file) { 
print “My directory is readable，wIitabJe，and executablel\n ” ; 


对 于 返回 真 假 值 以 外 的 测试 来 说 ， 栈 式 写法 并 不 出 色 。 像 下 面 的 例子 ， 我 们 原本 想 要 确 
认 某 个 小 于 512 字 节 的 目录 ， 可 实际 上 会 出 问题 : 


use 5.010; 


if (-5s -d 4file《 512) {  # 错 啦 ! 千 万 不 要 这 么 做 
say “The directory is less than 512 bytesl ; 
】 
按 其 内 部 的 实现 方式 展开 ， 我 们 可 以 看 到 上 面 的 例子 实际 上 相当 于 如 下 的 写法 ， 整 个 合 
并 起 来 的 文件 测试 表达 式 成 了 比较 运算 的 一 个 操作 数 : 


if (( -d 4$file and -5 _ )《512) { 
prTint “The directory is less than 512 byteslNn"; 


当 -d 返 回 假 时 ，Pezt] 将 假 值 同 数字 512 作 比较 。 比 较 的 结果 就 变 为 真 ， 因 为 假 等 效 为 数字 
0， 而 0 永远 小 于 512。 为 了 避免 这 种 令 人 困惑 的 写法 ， 还 是 用 分 开 的 方式 写 比 较 好 ， 这 
对 将 来 维护 程序 的 人 来 说 也 更 友善 ， 

计 (-d $file and -5s _《〈 512) { 


print “The directoxry is 1eSss than 512 byteslN\n ; 


】} 


stat 和 lstat 函 数 


用 前 面 介绍 的 文件 测试 操作 符 已 经 可 以 获取 某 个 文件 或 文件 句柄 的 各 种 常用 属性 ， 但 这 
只 是 一 部 分 ， 还 有 许多 其 他 属性 信息 没有 对 应 的 文件 测试 操作 符 。 比 如 说 ， 没 有 任何 文 
件 测 试 操作 符 会 返回 到 文件 的 链接 的 个 数 或 是 该 文件 拥有 者 的 ID 《uid) 。 想 知道 文件 所 
有 其 他 相关 信息 ， 请 使 用 stat 函 数 。 此 函数 能 返回 和 同名 的 Unix 系 统 调 用 stat 近 平一 样 
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~7/ 
丰富 的 文件 信息 〈 总 之 比 你 想 知 道 的 还 多 ) “0。 函 数 stat 的 参数 可 以 是 文件 句柄 〈 包 
括 虚 拟 文件 句柄 _) ， 或 是 菜 个 会 返 四 文件 名 的 表达 式 。 如 果 stat 函 数 执行 失败 (通常 是 
因为 无 效 的 文件 名 或 是 文件 不 存在 ) ， 它 会 返回 空 列 表 ， 要 不 然 就 返回 一 个 含 13 个 元 素 
的 数字 列表 ， 具 体 意义 见 下 面 由 标量 变量 构成 的 列表 ， 
my($dev，$ino，$mode，4$nlink， $uid $gid，$rdev， 


$size，$atime，$mtime，$ctime， 将 iksize， $blocks) 
= Stat($filename); 


这 些 变量 名 代表 stat 函 数 返回 的 列表 外 对 应 的 数据 ， 你 应 该 抽出 点 时 间 看 看 stat(2) 文 
档 里 的 详细 说 明 。 不 过 在 这 里 ， 我 们 会 简单 列 出 比较 重要 的 几 个 : 


gdev 和 9ino . 
即 文件 所 在 设备 的 编号 与 文件 的 inode 编 号 。 这 两 个 编号 决定 了 这 个 文件 的 唯一 
性 ， 就 像 发 给 文件 的 “牌照 〈license plate) ”一 样 。 即 使 它 具 有 多 个 不 同 的 文 
件 名 (使 用 硬 链接 创建 ) ， 设 备 编号 和 inode 编 号 的 组 合 依然 是 独一无二 的 。 

gmode 
文件 的 权限 位 集合 ， 还 包含 其 他 信息 位 。 如 果 你 曾 用 Unix 命 令 1s- 查 看 过 详细 (元 
长 ) ,的 文件 列表 ， 你 会 看 到 其 中 每 一 行 都 是 由 类 似 -TwxT-xTr-x 这 样 的 字符 串 开 始 
的 。 长 度 共 9 个 字符 的 连 字符 和 字母 ， 刚 好 对 应 到 $mode 最 低 有 效 的 9 个 权限 位 [ 注 10。 
以 这 个 例子 而 言 ， 其 实 就 是 八进制 数值 0755。 而 其 他 的 位 则 表示 文件 的 其 他 信息 。 
所 以 如 果 需 要 用 到 权限 模式 ， 那 你 就 得 学 会 如 何 使 用 按 位 运算 操作 符 (本章 稍 后 就 
会 介绍 ) 。 

gnJinK 
文件 或 目录 的 〈 硬 ) 链接 数 ， 也 就 是 这 个 条 目 有 多 少 个 真实 名 称 。 这 个 数值 对 目录 
来 说 总 会 是 ?或 更 大 的 数字 ， 对 文件 来 说 则 (通常 ) 是 1。 我 们 会 在 第 十 三 章 的 “ 链 





注 10: “在 非 Unix 系 统 上 ，stat、1stat 以 及 文件 测试 操作 符 都 应 该 返回 “可 能 范围 内 最 接近 的 
值 ”。 比 如 ， 没 有 用 户 ID 的 系统 (也 就 是 以 Unix 观 点 来 看 ， 该 系统 刚好 只 有 一 个 “用 
户 ”) 可 能 会 返回 零 ， 以 表示 用 户 及 组 ID， 将 唯一 的 用 户 当 成 系统 管理 员 。 如 果 stat 或 
lstat 执 行 失败 ， 便 会 返回 空 列表 。 如 果 文 件 测试 操作 符 的 底层 系统 调用 失败 (或 者 在 该 
系统 上 无 法 取得 ) ， 则 该 测试 操作 符 通常 会 返回 undef。 请 参阅 periport 文 档 里 各 种 系统 
上 预期 结果 的 最 新 数据 。 


注 11: 字符 串 里 的 第 一 个 字符 并 不 代表 权限 位 ， 而 是 表示 此 条 目的 类 型 : 其 中 连 字 符 代 表 一 般 


文件 ，d 代 表 目 录 ， 1 代表 符 号 链接 。15 命 令 是 根据 最 低 九 位 之 上 的 其 他 位 来 判断 文件 类 
型 。 
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接 与 文件 ”一 节 介绍 如 何 为 文件 创建 链接 ， 那 时 可 以 了 解 更 多 有 关 链 接 的 信息 。 在 
1s-1 的 结果 中 ， 权 限 位 之 后 的 数字 就 是 文件 链接 数 。 


guid 和 ggid 
以 数值 形式 表示 文件 拥有 者 的 用 户 ID 及 组 ID。 


gsize 
以 字 节 为 单位 的 文件 大 小 ， 和 -s 文 件 测试 操作 符 的 返回 值 相 同 。 
gatime，gmtimne 和 gctime 
三 种 时 间 戳 ， 但 在 这 里 是 以 系统 的 时 间 烙 式 来 表示 : 一 个 32 位 的 整数 ， 表 示 从 纪元 
(epocp) 算 起 的 秒 数 ， 纪 元 是 测量 系统 时 间 的 任意 基准 点 。 在 Unix 与 某 些 其 他 的 
系统 中 ， 纪 元 是 从 公元 1970 年 世界 标准 时 间 的 午夜 算 起 ， 但 也 有 些 系统 上 会 不 同 。 
本 章 稍 后 将 会 进一步 阐述 如 何 将 时 间 惟 的 值 转换 成 有 用 数据 。 


对 符号 链接 名 调用 stat 函 数 将 会 返回 符号 链接 指向 对 象 的 信息 ， 而 非 符号 链接 本 身 的 信 
息 〈 除 非 该 链接 指向 的 对 象 目 前 无 法 访问 ) 。 若 你 需要 符号 链接 本 身 的 信息 (多 半 没 
用 ) ， 你 可 以 用 Lstat〈 它 会 返回 同样 顺序 、 同 样 意义 的 内 容 ) 来 代替 stat。 如 果 1stat 
的 参数 不 是 符号 链接 ， 它 会 和 stat 一 样 返回 空 列表 。 


就 像 文 件 测试 操作 符 一 样 ，stat 和 1stat 的 默认 操作 数 是 $_。 也 就 是 说 ， 底 层 的 stat 系 统 
调用 会 对 标量 变量 $ 里 的 文件 名 进行 操作 。 1 


localtime 函 数 


你 能 获得 的 时 间 惟 值 (比如 从 stat 函 数 返 回 的 时 间 惟 ) 看 起 来 通常 会 像 1180630098 这 
样 的 形式 。 对 大 多 数 人 来 说 ， 这 样 的 数字 实在 不 太 方便 ， 除 非 你 想 通过 减法 来 比较 两 个 
时 间 发 的 大 小 。 所 以 ， 你 可 能 需要 将 它 转换 成 比较 容易 阅读 的 形式 ， 比 如 “Thu May 31 
09:48:18 2007” 这 样 的 字符 串 。Perl 可 以 在 标量 上 下 文中 使 用 localtime 国 数 完 成 这 种 
转换 : 

my $timestamp = 1180630098; 

my $date = 1ocaltime $timestamp? 
在 列表 上 下 文中 ，localtime 会 返回 一 个 数字 元 素 组 成 的 列表 ， 但 其 中 有 些 元 素 并 不 是 
你 想 要 的 ， 


my($sec，$min，$hour，$day，$mon，$year，$uday，$yday，$isdst) 
= localtinme $timestamp; 


$mon 是 范围 从 0 到 11 的 月 份 值 ， 很 适合 用 来 索引 月 份 名 。$yeaz 是 一 个 自 1900 年 起 算 的 
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年 数 ， 所 以 将 这 个 值 加 上 1900 就 是 实际 的 年 份 。$wday 的 范围 从 0 星期 天 ) 到 6 ( 星 
期 六 ) ，$yday 则 表示 目前 是 今年 的 第 几 天 ， 范 围 从 0 (1 月 1 日 ) 到 364 或 365 (12 月 31 
日 ) 。 

还 有 两 个 相关 的 函数 对 你 可 能 也 有 用 。8gmtime 函 数 和 localtime 函 数 一 样 ， 只 不 过 它 返 回 
的 是 世界 标准 时 间 〈 即 格林 威 治 标准 时 间 ) 。 如 果 需 要 从 系统 时 钟 取得 当前 的 时 间 惟 ， 
可 以 使 用 time 函 数 。 不 提供 参数 的 情况 下 ， 人 默认 情况 下 都 
使 用 当前 time 返 回 的 时 间 值 : 


my $now = gmtinme;j # 取得 当前 世界 标准 时 间 的 时 间 戳 字符 串 
关于 操作 时 间 及 日 期 的 进一步 信息 ， 请 参考 附录 B 所 提 到 的 诸多 有 用 模块 。 


按 位 运算 操作 符 


如 果 你 需要 逐 位 进行 运算 ， 比 如 对 stat 函 数 返 回 的 权限 位 进行 处 理 ， 就 必须 用 到 按 位 
运算 操作 符 (bitwise operator) 。 该 操作 符 对 数据 执行 二 进 制 数学 运算 。 按 位 与 操作 符 
(Pitpwise-and， 记 作 8&) 会 给 出 两 边 参 数 对 应 的 位 置 中 哪些 位 同时 都 为 1。 举 个 例子 ， 
表达 式 108&12 得 到 的 值 是 8。 按 位 与 操作 符 只 有 在 两 边 相 应 的 位 均 为 1 的 状况 下 才 会 产生 
1。 因 此 ，10 (写成 二 进 制 是 1010) 和 12 (二 进 制 为 1100) 的 按 位 与 运算 结果 是 8 (二 
进 制 1000， 也 就 是 10 和 12 以 二 进 制 数字 表示 时 间 时 为 1 的 位 所 组 成 的 数字 ) 。 请 参考 图 

12-1。 





图 12-1: 按 位 与 操作 
表 12-2 列 出 了 各 种 按 位 运算 操作 符 及 其 意义 。 


和 人 2: 人 

10 8& 12 入 人 与 一 旦 人 在 两 党 时 为 贡 (此 网 得 8) 

10 | 12 一 边 为 真 〈 此 例 得 14) 

10 ^ 12 边 为 真 ， 但 不 能 两 边 都 为 真 〈 此 例 得 6) 
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表 12-2: 披 位 运算 操作 符 及 其 意义 ( 续 ) 

表达 式 意义 人 - 

6<< 2 按 位 左 移 一 将 左边 操作 数 向 左 移动 数位 ， 移 动 位 数 由 右边 操作 数 指定 ， 
并 以 0 来 填补 最 低 有 效 位 〈 此 例 得 24) 

25 >> 2 按 位 右 移 一 一 将 左边 操作 数 向 右 移 动 数位 ， 移 动 位 数 由 右边 操作 数 指定 ， 
并 丢弃 移出 的 最 低 有 效 位 〈 此 例 得 6) 

>~10 按 位 取 反 ， 也 称 为 取 反 码 一 一 返回 操作 数 逐 位 反 相 之 后 的 数值 (此 例 得 
0xFFFFFFF5， 但 请 参考 后 文 的 说 明 ) 





好 吧 ， 下 面 来 看 几 个 例子 ， 看 看 我 们 可 以 用 这 些 操作 符 对 stat 函 数 返 回 的 gmode 信 息 如 何 
进行 位 操作 。 位 操作 的 结果 可 以 给 chmod 使 用 (我 们 会 在 第 十 三 章 中 介绍 此 函数 ) : 


# $mode 是 从 配置 文件 CONFIG 的 stat 信 息 中 取出 的 状态 值 


warn "Hey，the configuration file is WOI1Ld-wITitablelAn” 


if $mode 8& 0002; # 配置 文件 有 安全 隐患 
my $classical mode = 0777 8& $mode; # 遮蔽 额外 的 高 位 
my $u_plus_x = $classical_mode | 0100; ”## 将 一 个 位 设 为 1 
my $go_minus T = $classical_mode & (> 0044); # 将 两 个 位 都 设 为 0 
人 一 一 | 
使 用 位 字符 串 


所 有 这 些 按 位 运算 操作 符 既 可 以 操作 位 字符 串 (bitstring) ， 也 可 以 对 整数 进行 操作 。 
如 果 操 作 数 都 是 整数 ， 结 果 也 会 是 整数 (整数 最 少 会 是 一 个 32 位 的 整数 ， 但 是 如 果 你 
的 硬件 支持 更 多 位 的 整数 ， 它 也 可 能 会 更 大 。 例 如 在 64 位 的 机 器 上 ，*10 的 结果 会 是 
0xFFFFFFFFFFFFFFF5， 而 不 是 32 位 机 器 上 的 0xFFFFFFF5。 ) 


不 过 ， 假 如 按 位 运算 操作 符 的 任 一 操作 数 是 字符 串 ， 则 Per1l 会 把 它 当 成 位 字符 串 来 处 
理 。 换 名 话说，"\XAA"|"\x55" 的 结果 会 是 "\xFF"。 注 意 ， 这 个 例子 里 的 值 都 是 单字 节 
(single-byte) 的 字符 串 ， 而 结果 是 8 位 都 为 1 的 字 节 。Perl 对 位 字符 串 的 长 度 设 有 限制 。 


这 是 少数 Perl 区 分 字符 串 和 数字 的 地 方 。 如 果 想 了 解 利用 按 位 运算 操作 符 处 理 位 字符 串 
的 细节 ， 请 参阅 periop 文 档 。 


习题 
以 下 习题 答案 参见 第 326 页 上 的 “第 十 二 章 习 题解 答 ” 一 节 ， 


1 [15] 写 一 个 程序 ， 从 命令 行 取得 一 串 文件 名 ， 并 汇报 这 些 文件 是 否 可 读 、 可 写 、 可 
执行 以 及 是 否 确实 存在 。 (提示 :如 果 你 可 以 写 一 个 函数 一 次 做 完 这 些 测试 会 很 
方便 。) 如 果 先 对 文件 做 chmod 为 0， 你 的 程序 会 汇报 什么 ?》 (也 就 是 说 ， 如 果 你 
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使 用 Unix 系 统 ，chmod 0 some 月 e 这 样 的 命令 就 会 把 文件 标示 成 不 可 读 、 不 可 写 也 
不 可 执行 。) 在 大 部 分 的 shell 下 ， 用 星 号 作为 参数 ， 代 表 当 前 目录 下 的 所 有 文件 。 
也 就 是 说 ， 你 可 以 用 ./ex12-2*# 这 样 的 命令 来 向 程序 一 次 询问 多 个 要 测试 文件 的 属 
性 。 

[10] 写 一 个 程序 ， 从 命令 行 参数 指定 的 文件 中 找 出 最 旧 的 文件 并 且 以 天 数 汇 报 它 已 
存在 了 多 和 久 。 若 列表 是 空 的 〈 也 就 是 命令 行 中 没有 提 及 任何 文件 ) ， 那 么 它 该 做 什 


么 ? 


[10] 写 一 个 程序 ， 用 栈 式 文件 测试 操作 符 列 出 命令 行 参数 指定 的 所 有 文件 ， 看 看 拥 
有 者 是 否 是 你 自己 ， 以 及 它们 是 否 可 读 、 可 写 。 
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第 十 三 章 


目录 操作 





我 们 在 上 一 章 所 创建 的 文件 通常 保存 在 和 程序 文件 相同 的 目录 ， 这 么 做 有 点 乱 。 不 过 现 
代 的 操作 系统 都 使 用 目录 来 组 织 和 管理 文件 ， 比 如 将 披 头 士 (Beaties) 的 MP3 文 件 和 
我 们 的 “小 骆驼 书 ” 各 章 的 重要 源 文件 分 开 存放 ， 以 免 不 小 心 把 MP3 文 件 寄 给 出 版 社 。 
Perl 让 你 可 以 直接 对 目录 进行 操作 ， 即 使 在 不 同 的 操作 系统 下 ， 做 法 也 还 是 差不多 的 。 


在 目录 树 中 移动 


程序 运行 时 会 以 自己 的 工作 目录 (working directory) 作为 相对 路 径 的 起 点 。 也 就 是 说 ， 
当 我 们 提 及 fred 这 个 文件 时 ， 其 实 指 的 是 “当前 工作 目录 下 的 fred”。 


你 可 以 用 chdir 操 作 符 来 改变 当前 的 工作 且 录 。 它 和 Unix shell 的 cd 命令 差不多 : 
chdir “/etc'” or die "cannot chdir to /etc: $1; 


因为 这 是 一 个 对 操作 系统 的 调用 ， 所 以 发 生 错误 时 便 会 设 定 标量 变量 $1 的 值 。 如 果 
chdiz 的 返回 值 为 假 ， 则 表示 有 些 事情 没有 顺利 完成 。 这 时 ， 你 应 该 检查 一 下 $! 中 的 错 
误 原 因 。 


由 Per] 程 序 启 动 的 所 有 进程 都 会 继承 Perl 程 序 的 工作 且 录 (我 们 会 在 第 十 四 章 谈 到 ) 。 可 
是 工作 目录 的 更 改 却 无 法 影响 调用 Perl 程 序 的 进程 比如 shell。 这 并 不 是 Perl 本 身 的 限制 ， 
这 种 限制 实际 上 是 Unix、Windows 和 其 他 系统 的 一 个 特性 。 如 果 你 真 的 想 改变 shell 的 工 
作 目 录 ， 请 参阅 shell 的 相关 文档 。 这 意味 着 你 没 办 法 写 出 可 以 代替 shell 里 的 cd 命令 的 
Perl 程 序 ， 因 为 一 旦 退出 Perl 程 序 ， 又 会 回 到 启动 Perl 程 序 时 所 在 的 工作 目录 。 
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如 果 调用 chdir 时 不 加 参数 ，Perl 会 猜想 你 要 回 到 自己 的 用 户主 目录 (home directory) 并 
试 着 将 工作 目录 设 成 主 目录 ， 这 和 在 shell 下 使 用 不 加 参数 的 cd 命令 的 效果 相同 。 这 是 少 
数 不 以 $ 作为 默认 参数 的 情形 之 一 。 


有 些 shell 多 许 你 使 用 波浪 号 作为 cd 的 前 缀 ， 让 你 能 够 以 另 一 个 用 户 的 主 目录 作为 起 点 
( 像 cd~merDym) 。 但 这 是 shell 提 供 的 功能 ， 而 非 操作 系统 。 因 为 Perl 的 chdiz 是 通过 直 
接 调 用 操作 系统 实现 的 ， 跳 开 了 shell， 所 以 这 里 无 法 使 用 这 种 以 波浪 号 开头 的 写法 ! 竹 1。 


文件 名 通 配 


一 般 来 说 ，shel1 会 将 命令 行 里 的 文件 名 模式 展开 成 所 有 匹配 的 文件 名 。 这 就 称 为 文件 名 
, 通 配 〈81op) 。 比 如 把 *.pm 这 个 文件 名 模式 交 给 echno 命 令 ，shell 会 将 它 展 开 成 名 称 相 匹 
配 的 文件 列表 : 


$ echo 。pm 
barney.pm dino.pm fred.pm WILLma .pm 


这 里 的 echo 命 令 其 实 并 不 知道 如 何 展开 *.pm， 因 为 shell 会 先 把 * .pm 展开 成 一 些 符合 条 件 
的 文件 名 ， 然 后 再 交 给 它 处 理 。 这 对 Perl 程 序 来 说 也 是 一 样 的 。 下 面 的 程序 只 是 简单 输 
出 所 有 命令 行 参数 : 

foreach $arg (@ARGV) { 

pTint "one arg is $arg\n"; 

】} 
运行 程序 时 ， 如 果 只 有 一 个 带 有 文件 名 通 配 的 参数 ，she1 会 先 展开 该 通 配 模式 ， 再 把 结 
果 传 递 给 程序 。 这 样 ， 对 程序 来 说 ， 就 好 比 是 看 到 多 个 参数 : 

$ per1l show-args 半 ,pm 

one az8g is barney .pm 

one arg is dino.pm 

one arg is fred.pm 

one axg is wilma.pnm 
请 注意 ，show-args 完 全 不 必 了 解 如 何 进行 文件 名 通 配 处 理 一 一 放 在 @ARGV 里 的 已 经 是 展 
开 好 了 的 名 称 。 


不 过 有 时 候 在 程序 内 部 也 可 能 需要 用 * .pm 之 类 的 模式 。 我 们 可 以 不 花 太 多 力气 就 把 它 展 
开 成 相 匹配 的 文件 名 吗 ? 当然 ! 只 要 用 glob 操 作 符 就 行 了 : 


注 1; 你 可 以 试 试 File: :HomeDir 模 块 ， 不 管 在 什么 操作 系统 上 都 能 进入 指定 用 户 的 主 目录 。 
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my @all files = gLob “:# 

my @pm_files = glob “*,.pm' ; 
其 中 ，@al1_files 会 取得 当前 目录 中 的 所 有 文件 并 按 字母 顺序 排序 ， 但 不 包括 以 点 号 开 
头 的 文件 ， 这 和 shell 中 的 做 法 完全 相同 。@pm_files 得 到 的 列表 与 之 前 在 令 行 使 用 * .pm 时 
的 相同 。 


其 实 ， 任 何 能 够 在 命令 行 上 键入 的 模式 都 可 以 作为 〈 唯 一 的 ) 参数 交 给 g1ob 处 理 ， 如 果 
要 一 次 匹配 多 种 模式 ， 可 以 在 参数 中 用 空格 隔 开 各 个 模式 ， 


my @al] files_including dot = g1ob “ . 冰 'j 


其 中 ， 我 们 加 上 了 “.*” 参 数 以 取得 所 有 的 文件 名 ， 无 论 它们 是 否 以 点 号 开头 。 请 注 
意 ， 在 引号 括 住 的 字符 串 里 ， 两 个 条 目 之 间 的 空格 是 有 意义 的 : 它 分 隔 了 两 个 要 进行 文 
件 名 通 配 处 理 的 条 目 [六 1)。glob 操 作 符 的 效果 之 所 以 和 shell 完 全 相同 ， 是 因为 在 Perl 5.6 
版 之 前 它 只 不 过 是 在 后 台 调 用 /bin/cshm [ 注 3 来 展开 文件 名 。 因 此 文件 名 通 配 非常 耗 时 ， 而 
且 还 可 能 在 目录 太 大 时 (或 别 的 情况 下 ) 崩溃 。 有 责任 心 的 Perl 黑 客 会 避 开 文 件 名 通 配 
， 处 理 ， 而 改 用 目录 名 柄 (directory handle) ， 本 章 稍 后 会 详细 讨论 。 不 过 ， 如 果 你 用 的 
是 新 版 的 Perl， 就 不 必 再 担心 这 件 事 了 。 


AS 和 多 
文件 名 通 配 的 另 一 种 语法 
虽然 我 们 一 直 在 介绍 文件 名 通 配 ， 也 介绍 了 g1ob 操 作 符 的 用 法 ， 可 在 许多 进行 文件 名 通 
配 处 理 的 程序 里 你 可 能 完全 看 不 到 g1ob 这 个 词 。 为 什么 昵 ? 嗯 ， 那 是 因为 大 部 分 过 去 写 
的 程序 都 是 在 gLob 操 作 符 出 现 之 前 写 的。 它们 使 用 尖 括 号 语法 来 调用 此 功能 ， 看 起 来 就 
跟 读 取 自 文件 句柄 差不多 : 
my @all_files = <*>; 。 # 效果 和 这 样 的 写法 完全 一 致 ， my 6a11_files = 81ob “*"; 


Per] 会 把 尖 括 号 内 出 现 的 变量 替换 成 它 的 值 ， 类 似 于 双 引 号 内 字符 串 的 变量 内 插 ， 这 表 
示 在 进行 文件 名 通 配 之 前 ， 尖 括号 内 的 Per 变量 会 先 被 展开 成 它们 的 当前 值 : 


my $dir =“/etc '; 
my @diT_files =《$dir/* $dir/.*>; 


此 处 ， 因 为 $dir 会 被 展开 成 它 当 前 的 值 ， 所 以 最 终 会 取得 指定 目录 下 的 所 有 文件 ， 不 管 
名 称 是 以 点 号 开头 的 文件 ， 还 是 不 以 点 号 开头 的 。 





注 2: Windows 用 户 可 能 习惯 使 用 *.# 这 个 文件 名 通 配 来 代表 “所 有 文件 ”。 但 其 实 它 表示 的 是 
“所 有 名 称 中 包含 点 号 的 文件 ”， 即 使 对 Windows 平 台 上 的 Perl 来 说 也 是 这 个 意思 。 
注 3: 如 果 C-shell 不 硒 在 ， 它 会 调用 其 他 合适 的 shell 程 序 。 
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这 样 说 来 ， 假 如 尖 括 号 既 表示 从 文件 句柄 读 取 又 代表 文件 名 通 配 操作 ， 那 Perl 又 是 如 何 
判断 取舍 的 呢 ? 里 ， 因 为 合理 的 文件 句柄 必须 是 严格 意义 上 的 Perl 标 识 符 ， 所 以 如 果 尖 
括号 内 是 满足 Perl 标 识 符 条 件 的 ， 就 作为 文件 句柄 来 读 取 ， 否 则 ， 它 代表 的 就 是 文件 名 
通 配 操作 。 例 如 ， 

my @files = <FRED/#>;  # 文件 名 通 配 操作 

my @]ines = 《FRED>; # 从 文件 句柄 读 取 

my @lines = 《$fred>; 。 # 从 文件 句柄 读 取 

my $name = “FRED ; 

my @files =《$name/*x>; # 文件 名 通 配 操作 
上 述 规则 的 唯一 俩 外 ， 就 是 当 尖 括号 内 仅 是 一 个 简单 的 标量 变量 〈 不 是 哈 希 或 数组 元 
素 ) 时 ， 那 么 它 就 是 间接 文件 句柄 读 取 (indirect ilehandle read) [ 泪 ， 其 中 变量 的 值 
就 是 待 读 取 的 文件 句柄 名 称 : 


my $name = “FRED' ; 
my @ljines = “《$name>; # 对 句柄 FRED 进 行 间 接 文件 句柄 读 取 


Per 会 在 编译 阶段 决定 它 是 文件 名 通 配 操作 还 是 从 文件 句柄 读 取 ， 因 此 和 变量 的 内 容 无 关 。 


假如 你 喜欢 ， 也 可 以 使 用 readline 操 作 符 来 执行 间接 文件 句柄 读 取 上 53， 让 程序 读 起 来 
更 清楚 些 ; 

my $name = “FRED ; 

my @lines = Teadline FRED; # 从 FRED 读 取 

my @lines = readline $name; # 从 FRED 读 取 
不 过 ， 因 为 间接 文件 句柄 读 取 并 不 常见 ， 并 且 通 常 也 只 用 在 简单 的 标量 变量 上 ， 所 以 很 
少 有 用 到 zeadline 操 作 符 的 机 会 。 


目录 句 顶 


车 想 从 目录 里 取得 文件 名 列表 ， 还 可 以 使 用 目录 句柄 (directory handie) 。 目 录 句 柄 看 
起 来 像 文 件 句 柄 ， 使 用 起 来 也 没 多 大 差别 。 你 可 以 打开 它 (以 opendir 代 替 open) ， 读 取 
它 的 内 容 (以 readdir 人 代替 Teadline) ， 然 后 将 它 关闭 〈 以 closedir 代 替 close) 。 只 不 
过 读 到 的 是 目录 里 的 文件 名 或 其 他 东西 的 名 称 ) ， 而 不 是 文件 的 内 容 。 例 如 ， 


注 4: 如 果 间 接 文件 向 栖 是 一 个 文本 字符 囊 ， 那 么 在 use strict 的 情况 下 将 它 交 给 “符号 引 
用 (symbolic reference) ”来 测试 是 不 允许 的 。 不 过 ， 间 接 铅 栖 还 可 能 是 符号 表 通 配 
(typeglob) 或 某 个 LO 对 象 的 引用 ， 这 样 尽管 在 使 用 了 use strict 的 时 候 ， 也 是 可 以 正 
常 工 作 的 。 

注 $: 如 果 你 使 用 的 是 Perl 5.005 或 之 后 的 版 本 。 
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my $dir to_pTrocess =“/etc ; 
opendir my $dh，$dir_ to_pTrocess o7 die “Cannot open $dir_ to_pTrocess: $! 
foreach $fjile (readdiz $dh) { 

print "one file in $dir to_pIrocess is $fileN\n ; 


closedir 4$dh; 


和 文件 句柄 一 样 ， 有 目录 句柄 会 在 程序 结束 时 自动 关闭 ， 也 会 在 用 这 个 句柄 再 打开 另 一 个 
目录 前 自动 关闭 。 


你 也 可 以 选用 裸 字 作 为 目录 句柄 的 名 称 ， 这 和 文件 句柄 一 样 ， 但 也 同样 存在 问题 ， 


opendir DIR，$dir_to_pxrocess 
or die "Cannot open 4$dir_to_pTocess: $! ”3 
foreach $file (zeaddir DIR) 1 . 
print “one file in $dir to_process is $fileN\n ; 


Closedir DIR; 


这 里 的 实现 和 文件 名 通 配 完全 不 同 ， 在 旧版 Perl 里 面 通 配 操作 需要 开启 多 个 外 部 进程 ， 
而 目录 句柄 的 读 取 是 不 需要 额外 打开 什么 进程 的 。 所 以 ， 对 于 需要 榨取 更 多 计算 能 力 的 
程序 来 说 ， 前 者 可 以 提供 更 佳 的 性 能 。 不 过 ， 目 录 句 柄 是 个 低级 操作 符 ， 所 以 我 们 必须 
_ 自己 多 做 点 事 。 


比如 目录 句柄 返回 的 名 称 列表 并 未 按照 任何 特定 的 顺序 排列 ! 往 89。 此 外 ， 列 表 里 将 
会 包含 所 有 的 文件 ， 而 不 只 是 匹配 某 些 模式 的 部 分 〈 好 比 刚才 的 文件 名 通 配 范例 中 的 
* .pm) 。 另 外 列表 里 包含 了 名 称 以 点 号 开头 的 文件 ， 要 特别 注意 .和 ,. .也 在 其 中 ! 往 7。 
因此 ， 如 果 我 们 只 想 处 理 名 称 以 pm 结尾 的 文件 ， 则 可 以 在 循环 内 使 用 一 个 跳 过 函数 ， 

while ($name = Teaddir $dh) 

next unless $name = / 八 .pm$/; 

..。 其 他 对 文件 名 的 处 理 ... 

} 
请 注意 ， 这 是 正则 表达 式 的 语法 ， 而 不 是 文件 名 通 配 。 若 想 取得 所 有 名 称 不 以 点 号 开头 
的 文件 ， 我 们 可 以 这 么 写 ; 


next jif $name =~ /AN\./; 


或 者 ， 如 果 要 排除 . (当前 目录 ) 和 .. (上 层 目 录 ) 这 两 个 条 目 ， 可 以 直接 写 明 ， 


注 6: 这 其 实 是 目录 列表 里 (未 经 排序 ) 的 条 目 顺 序 ， 就 像 执行 1 -/ 或 pnd 时 得 到 的 顺序 一 样 。 

注 7， 许多 十 者 的 Unix 程 序 都 犯 了 这 个 错误 ， 以 为 。 和 .。 一定 是 前 两 个 返回 的 条 目 (无 论 是 否 
排序 ) 。 如 果 你 报 本 没 这 么 超过 ， 请 忘记 这 上 段 脚 注 ， 因 为 这 是 错误 的 猜想 。 事 实 上 ， 我 
们 现在 已 经 后 悔 提 到 它 了 。 


next jif $name eq ". or $name eq .。; 


接 下 来 变 说 明 的 是 最 让 人 迷惑 的 地 方 ， 所 以 请 特别 注意 。readdir 操 作 符 返回 的 文件 名 . 
并 不 含 路 径 名 ， 它 们 只 是 目录 里 的 文件 名 而 已 。 所 以 ， 我 们 不 会 看 到 /etc/passwd， 而 只 
会 见 到 passywd (因为 这 是 另 一 个 与 文件 名 通 配 操作 的 区 别 ， 所 以 很 容易 把 人 搞 糊 涂 ) 。 
所 以 得 加 上 路 径 名 称 才 有 办 法 得 到 文件 的 全 名 ， 


opendir my $somedir，$dirname or die “Cannot open $dirname: $1 ”1 
while (my $name = readdir $somedir) { 


next jif $name =~ /AN /; # 跳 过 名 称 以 点 号 开头 的 文件 
$name = "$dirname/$name" ; # 拼合 为 完整 的 路 径 
next unless -f $name and -T $name; # 只 需要 可 读 的 文件 

】} 


为 了 让 程序 更 具 可 移植 性 ， 可 以 用 File::Spec: :Functions 模 块 构造 用 于 本 地 系统 的 合适 
文件 名 站 3， 


Use File::Spec::Functions; 


opendir my $somedir，$dirname or die“Cannot open $dirname: $1”; 
While (my $name = Teaddir $somedir) { 

next 计 $name = /AN\,/; # 跳 过 点 号 开头 的 文件 

$name = catfile( $dirname，$name ); # 拼合 为 完整 的 路 径 

next unless -f $name and -T $name; # 只 需要 可 读 的 文件 


若是 没有 接 上 路 径 ， 文 件 测试 操作 符 会 在 当前 目录 下 查找 文件 ， 而 不 是 在 $dirname 指 定 
的 目录 下 。 这 是 使 用 目录 句柄 时 最 常 犯 的 错误 。 


递归 访问 目录 

在 你 刚 开 始 Perl 编 程 生涯 的 数 十 小 时 内 ， 一 般 不 会 需要 进行 递归 目录 访问 。 我 们 不 希望 
现在 就 介绍 如 何 用 Perl 实 现 Find 这 样 的 命令 行 工 具 ， 以 免 分 心 ， 目 前 你 只 需要 知道 ，Perl 
” 自 带 了 一 个 很 棒 的 模块 File: :Find， 我 们 可 以 用 它 漂亮 简洁 地 完成 目录 的 递归 处 理 。 我 
们 这 么 说 的 目的 是 希望 你 不 要 自己 重新 写 一 遍 同样 功能 的 子 程序 ， 好 多 初学 者 在 开始 的 
数 十 小 时 里 都 摩拳擦掌 地 想 要 自己 实现 点 什么 ， 但 过 不 了 多 久 就 会 落 然 不 知 所 措 ， 对 
“本 地 目录 句柄 ”和 “如 何 返回 原来 的 目录 ”感到 困惑 。 


如 果 你 已 经 习惯 于 用 Unix 的 Ard 命 令 完 成 任务 ， 那 你 也 可 以 把 这 些 任 务 改 成 使 用 Perl 自 带 





注 8: 另外 还 有 一 个 模块 Path::Class， 它 能 完成 同样 的 任务 ， 而 且 用 户 界 面 更 为 友好 ， 只 不 过 
它 不 是 Perl 默 认 自 带 的 模块 。 
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的 find2perj 峰 本 生成 的 Perl 程 序 来 完成 。 把 原来 用 在 ind 命 令 上 的 参数 照 报 过 来 ， 就 会 自 
动 生成 一 段 同样 功能 的 Perl 程 序 代 码 : 
$ find2perl 。 -name “ 半 .pm 
”大 ! VusYrVbin/perl -W 


eval exec /usIT/Vbin/peTr]l -9 $0 ${44"4@"]}， 
计 0; #running_undez_some_shel1 


Use StTict; 
use File::Find (); 


# Set the variable $File::Find::dont_use_nlink if you're Using AFS， 
# since AFS cheats， 


# for the convenjience of gwanted cal1s，including -eval statements : 
USe VaISs qwWV/*#name #dir *pTUne/; 

*#mname = #File::Find::namey 

来 人工 = 冰 File::Find::dir; 

#prune = #File::Find::prunej 


sub wanted ; 


## TraveTse desired fjilesystems 
File::Find::find({fwanted => \&wantedj，“，); 
exit; 
sub wanted { 

/人 .kN\。pImNZ/7S 

88& print("$nameNn"); 
】 


对 于 更 为 复杂 的 任务 ， 可 以 搜索 下 CPAN 上 的 模块 ， 比 如 File::Find::Rule 和 
File::Finder。 这 两 个 模块 都 是 架构 在 File: :Find 基 础 之 上 ， 但 提供 了 更 为 直观 、 易 用 
的 用 户 界 面 。 


文件 和 目录 的 操作 


常常 有 人 使 用 Perl 来 打 理 文件 和 目录 ， 因 为 Perl 是 在 Unix 环 境 下 成 长 起 来 ， 而 且 仍 然 主 
要 为 Unix 服 务 ， 所 以 这 一 章 可 能 看 起 来 会 比较 偏向 Unix。 值 得 庆 孝 的 是 在 非 Unix 系 统 
上 ，Perl 也 能 以 同样 的 方式 工作 。 


删除 文件 


大 多 数 时 候 ， 我 们 创建 文件 是 为 了 让 数据 有 个 地 方 落脚 。 一 旦 数据 过 时 ， 我 们 应 该 及 时 
删除 文件 。 在 Unix shell 下 ， 我 们 可 以 键 和 人 rm 命令 来 删除 单个 或 多 个 文件 : 


$ Im slate bedrock lava 
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在 Perl 里 面 ， 我 们 可 以 使 用 unlink 操 作 符 ， 并 指定 要 删除 的 文件 列表 ; 


Unlink “slate" ， "bedrock'， "lava '; 


UnlIink qw(slate bedrock lava); 
这 会 把 三 个 文件 放 进 雁 纸 机 ， 从 此 消失 在 系统 中 。 


既然 unlink 的 参数 是 一 个 列表 ，8g1ob 数 又 恰好 返回 的 是 一 个 列表 ， 我 们 只 要 联合 两 
者 ， 就 可 以 一 次 删除 多 个 文件 : 


unlink gl1ob “#.0 


这 跟 我 们 在 shel 中 的 zm#.o 很 像 ， 但 却 不 必 启 动 外 部 的 rm 进程。 所 以 可 以 更 快 地 让 这 些 重 
要 文件 消失 ! 


unlink 的 返回 值 代表 成 功 删 除 的 文件 数目 。 所 以 在 第 一 个 例子 里 ， 改 用 下 面 的 写法 可 以 
检查 它 是 否 执行 成 功 ; 


my $successful = unlink "slate"， "bedrock"，"1ava"; 
print "I deleted 4$successful file(5) just nowNn "; 


是 的 ， 如 果 返 回 值 是 3， 我 们 当然 知道 所 有 文件 都 被 期 除了 ， 如 果 是 0， 则 表示 没有 删除 
任何 文件 。 那 如 果 是 1 或 2 昵 ? 嗯 ， 我 们 没 办 法 知道 被 删除 的 是 哪个 。 假 如 你 一 定 要 知 
道 ， 请 使 用 循环 每 次 删除 一 个 : 


foreach my $file (qw(slate bedrock lava)) 1{ 
unlink $file or .Narn“failed on $file: $INn"; 
} 


因为 每 次 只 删除 一 个 文件 ， 所 以 返回 值 不 是 0 〈 失 败 ) 就 是 1 (成 功 ) ， 这 刚好 可 以 当成 
布尔 值 来 控制 warn 的 执行 。 在 这 里 or warn 和 之 前 在 第 五 章 中 介绍 的 or die 的 用 法 相似 ， 
只 是 后 果 没 那么 严重 。 我 们 在 警告 信息 后 面 加 上 了 换行 符 ， 这 样 就 不 会 显示 是 哪 行程 序 
代码 发 出 的 警告 ， 因 为 即便 文件 删除 失败 ， 也 肯定 不 是 我 们 程序 代码 上 的 问题 。 


当 unlink 执 行 失 败 时 ， 内 置 的 $! 变 量 会 被 设 成 操作 系统 错误 的 相关 信息 。 此 变量 只 有 在 
循环 处 理 每 一 个 文件 的 过 程 中 才 可 用 ， 因 为 每 次 系统 调用 失败 时 都 会 重 设 该 变量 的 内 
容 。unlink 不 能 用 来 删除 目录 (这 同 不 带 参 数 的 rm 命令 不 能 删除 目录 一 样 ) ， 你 得 使 用 
稍 后 提 到 的 fmdiz 函 数 。 


在 Unix 上 有 个 鲜 为 人 知 的 事实 : 某 个 文件 可 能 让 你 无 法 读 取 、 写 入 、 执 行 ， 甚 至 无 法 拥 
有 一 其 实 它 根 本 就 是 别人 的 文件 ， 但 你 还 是 可 以 将 它 删 除 。 这 是 因为 删除 文件 的 权限 
跟 文 件 本 身 的 权限 位 无 关 ， 它 取决 于 文件 所 在 目录 的 权限 位 。 
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之 所 以 提 到 这 点 ， 是 因为 Perl 的 初学 者 在 测试 nlink 时 ， 常 会 在 建立 一 个 文件 后 将 它 
chmod 成 0 (这 样 就 无 法 对 它 进 行 读 写 ) ， 看 看 这 是 否 能 让 unlink 执 行 失败 。 可 是 结果 恰 
好 相反 ， 文 件 却 像 肥 皂 泡 一 样 消失 了 考 9。 不 过 ， 如 果 你 真 的 想 看 到 unl1ink 执 行 失败 ， 
只 要 试 着 删除 /etfe/passwd 或 类 似 的 系统 文件 就 行 了 。 因 为 这 个 文件 是 由 系统 管理 员 控制 
的 ， 因 此 你 无 法 将 它 删 除 攻 10。 


重 命 名 文件 
想 为 现 有 的 文件 取 个 新 名 字 ? 可 以 用 rename 函 数 : 
Tename "01d'  ， new ' ; 
跟 Unix 的 mv 命令 一 样 ， 这 会 将 名 为 old 的 文件 改 为 同一 个 目录 下 名 为 new 的 文件 。 你 甚至 
可 以 将 文件 移 到 其 他 目录 中 ， 
Tename "0Vvet_there/some/p1ace/Some_file ， "some file'; 
有 些 人 喜欢 用 第 六 章 (“ 胖 箭头 ”一 节 ) 里 提 到 的 胖 稍 头 表示 改名 的 先后 ， 
rename 'over_there/some/place/some_file'， =》'some_ file 
只 要 运行 程序 的 用 户 拥有 足够 的 权限 ， 这 会 将 其 他 目录 中 名 为 some_file 的 文件 移动 到 
当前 目录 里 蛙 I。 和 大 部 分 调用 操作 系统 功能 的 函数 一 样 ，rename 执 行 失败 时 返回 假 ， 


并 且 会 将 操作 系统 返回 的 错误 信息 存 到 $1 里 ， 从 而 让 你 可 以 《通常 也 应 该 ) 用 ordie (或 
是 orwarn) 来 向 用 户 汇报 问题 。 


新 闻 组 里 最 常见 [ 疆 10 的 Unix shell 问 题 就 是 ， 如 何 批量 把 名 称 以 ,old 结尾 的 文件 改名 为 
以 .new 结尾 。 下 面 是 Perl 拿 手 的 做 法 : 


foreach my $file (8Lob "*.old") 二 
my $newfile = $filej 





注 9， 当然 ， 如 果 你 在 尝试 这 种 操作 时 太 粗 心 ， 忘 记 了 现在 正 以 系统 管理 员 的 身份 登录 ， 那 就 
没 话 好 说 了 。 

注 10: 此外， 它们 还 必须 在 同一 个 文件 系统 里 。 这 条 规则 存在 的 理由 稍 后 介绍 。 

注 11: ”批量 改名 不 仅 是 历史 常见 问题 ， 也 是 这 些 新 闻 组 目前 最 常见 的 问题 ， 因 此 也 是 常见 问 
题 集 (FAQ) 里 名 列 榜首 并 且 最 早 被 解答 的 问题 。 就 算 这 样 ， 它 还 是 继续 留 在 榜首 。 
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$newfile = S 八 .01d$/ .new/; 
ji 〈-e $newfile). { 
Warn "can't fename $file to $newfjile: $newfile exists\n" ; 
} elsif (rename $fijle => $newfile) { 
# 改名 成 功 ， 什 么 都 不 需要 做 
else { 
warn "Tename $file to $newfile failed: $lAn”; 
】} 
} 


的 先 检查 $newfile 是 否 存在 ， 因 为 只 要 用 户 具 有 删除 目标 文件 的 权限 ，tename 就 会 
高 兴 兴 地 覆盖 掉 它 。 加 上 这 项 检查 ， 就 可 以 降低 损失 数据 的 几率 。 当 然 ， 如 果 你 原本 
ER 卓文 件 ， 比 如 wiima.new， 就 不 必 在 程序 里 先 用 -e 来 测试 了 。 


循环 里 的 前 两 行程 序 代码 可 以 (通常 也 会 ) 合并 成 这 样 ; 
(my $newfile = $file) = 5S 八 ,01d$/ .new/; 
这 种 做 法 会 先 声明 $newline 并 从 $file 里 取得 它 的 初始 值 ， 然 后 对 $newfile 进 行 替换 。 你 可 


以 把 它 读 成 ， 用 右边 的 模式 将 4file 变 换 成 $newfile。 而 考虑 到 优先 级 的 因素 ， 括 号 是 必需 
的 。 


这 在 Perl 5.14 里 面 借助 /z 标 志 的 话 ， 可 以 直接 在 s/// 替 换 时 生成 新 文件 名 。 形 式 上 差 不 
太 多 ， 但 省 掉 了 括号 : 


Use 5.014; 


my $newfile = $file =” SA 八 .01d$/ .new/T; 


没准 有 些 程序 员 会 注意 到 ， 怎 么 替换 运算 中 左边 的 点 号 之 前 有 反 斜 线 ， 而 右边 却 设 有 。 
其 实 这 是 因为 两 边 的 意义 不 同 ， 左 边 的 部 分 是 正则 表达 式 ， 右 边 的 则 可 视 为 双 引 号 内 的 
字符 串 。 所 以 我 们 需要 用 模式 八 .o1d$/ 来 表示 “字符 串 结 尾 的 :o1d” (因为 不 想 替 换 掉 
betty.old.old 这 个 文件 名 里 第 一 次 出 现 的 .o1d， 所 以 得 将 锚 位 定 在 字符 串 结尾 ) ， 但 是 在 
右边 可 以 直接 写成 .new 以 作为 替换 字符 串 。 


链接 与 文件 


要 进一步 了 解 文件 和 目录 的 运作 ， 先 搞 清 楚 Unix 的 文件 及 目录 模型 会 有 所 耕 助 ， 如 使 你 
的 系统 跟 Unix 的 运作 方式 稍 有 差异 。 跟 于 篇 幅 ， 想 深入 了 解 文件 系统 的 读者 请 参考 详细 
”讲解 Unix 内 部 细节 的 资料 。 


“ 挂 载 卷 (moxnted yofzume) ” 指 的 是 硬盘 或 相似 设备 ， 例 如 磁盘 分 区 、 软 盘 、CD- 
ROM 或 DVD-ROM。 其 中 可 能 含有 任意 数量 的 文件 和 目录 。 每 个 文件 都 存储 在 编号 的 
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inode 对 应 的 位 置 中 ， 我 们 可 以 把 它 想 象 成 磁盘 上 的 门牌 号 码 。 某 个 文件 或 许 会 存在 
inode 613 中 ， 而 另 一 个 则 可 能 存在 inode 7033 中 。 


不 过 ， 寻 找 某 个 特定 的 文件 时 ， 我 们 得 从 它 的 目录 找 起 。 目 录 是 一 种 由 系统 管理 的 特殊 
文件 。 基 本 上 目录 是 一 份 文件 名 和 相应 inode 编 号 的 对 照 表 [ 考 221。 目 录 列 出 来 的 内 容 当 
中 一 定 会 有 两 个 特殊 条 目 ， 一 个 是 ，( 称 作 “ 点 ”) ， 代 表 目录 本 身 ， 另 一 个 则 是 .，( 称 
作 “ 点 点 ”) ， 指 的 是 目录 结构 中 的 高 一 层 目 录 (也 就 是 它 的 上 层 目录 ) [ 圭 3。 图 13-1 
展示 了 两 个 inode:; 一 个 是 名 为 cpicken 的 文件 ， 另 一 个 是 Barney 的 诗歌 目录 /home/parney/ 
poe1gs， 其 中 包含 了 cpicken 文 件 。 文 件 的 inode 编 号 是 613， 而 目录 的 inode 编 号 是 919 (该 
目录 的 名 称 poems 并 没有 在 这 张 图 中 ， 因 为 当前 目录 本 身 的 信息 是 被 存放 在 别 的 目录 中 
的 ) 。 目 录 中 有 三 个 文件 条 目 (包括 cpicken) 和 两 个 子 目录 (其 中 一 个 inode 919 指 向 当 
前 目录 本 身 ) 条 目 以 及 每 个 条 目的 inode 编 号 。 


jnode 613 inode 919 








图 13-1， 先 有 chicken 再 有 egg 


要 在 指定 目录 中 创建 一 个 新 文件 时 ， 系 统 会 新 增 一 个 条 目 来 记录 文件 名 与 新 的 inode 
编号 。 系 统 怎 么 知道 哪个 inode 可 用 呢 ? 答案 是 每 个 inode 都 有 自己 的 链接 数 (1imK 
countij 。 如 果 inode 并 未 在 任何 目录 里 出 现 ， 它 的 链接 数 就 一 定 是 零 。 因 此 ， 所 有 链接 
数 为 零 的 inode 都 可 以 用 来 存放 新 的 文件 。 每 当 inode 被 列 和 人 目录 中 ， 链 接 数 就 会 递增 
当 它 在 目录 的 列表 里 被 删除 时 ， 链 接 数 就 会 递 碱 。 对 上 图 里 的 文件 cpnicken 来 说 ，inode 的 
链接 数 是 1， 我 们 把 链接 数 显 示 在 inode 数 据 右 上 方 的 小 框 里 。 


不 过 ， 有 些 inode 会 出 现在 多 个 目录 的 列表 里 。 举 例 来 说 ， 前 面 提 过 每 个 目录 都 会 有 .这 
个 条 目 ， 它 会 指 回 目录 本 身 的 inode。 所 以 任何 目录 的 链接 数 都 至 少 是 2: 一 个 位 于 它 的 
上 层 目 录 的 列表 里 ， 另 一 个 位 于 它 本 身 的 列表 里 。 除 此 之 外 ， 如 果 里 面 有 子 目 录 ， 则 每 


注 12: “在 Unix 系 统 上 〈 别 的 系统 通常 没有 inode、 硬 链接 等 概念 ) ， 可 以 利用 18 命 令 的 -; 选 项 来 查 
看 文件 的 inode 编 号 。 不 妨 试 着 键入 像 1 -ai 这 样 的 命令 。 假 如 文件 系统 里 有 两 个 以 上 的 条 
目 具有 相同 的 inode 编 号 ， 那 么 它们 实际 上 是 一 个 文件 ， 只 上 古 用 一 份 磁 查 空 间 。 

注 13: Unix 的 根 目 录 (root) 没有 上 层 目录 。 在 根 目 录 下 的 .. 和 .一 样 ， 都 指向 根 目录 本 身 。 
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个 子 目 录 还 会 通过 . .条 目 再 增加 一 个 链接 天 鸭 。 在 图 13-1 中 ， 且 录 的 inode 链 接 数 为 2 

(显示 在 右上 角 的 小 框 里) 。 链 接 数 代表 的 是 该 inode 的 真实 名 称 的 数量 ! 二 3。 那 么 一 
般 文 件 的 inode 也 可 以 在 目录 的 列表 里 重复 出 现 吗 ? 当然 可 以 。 假 设 Barney 在 上 述 的 目录 
里 用 Per 的 link 函 数 建立 了 一 个 新 的 链接 : 

Link “chicken ， "egg' 
or Warn "can't Link chicken to eg8g: $!”; 

这 和 在 Unix shell 命 令 行 上 键入 ln chicken egg 的 效果 类 似 。 link 在 成 功 时 会 返回 真 ， 失 
. 败 时 则 会 返回 假 ， 并 且 设 定 $1! 的 值 ，Barney 可 以 在 错误 信息 里 检查 这 个 值 。 这 个 程序 运 
行 后 ， re， 反之 亦 然 。 两 个 名 称 现 在 没有 哪个 比 另 一 个 
“真实 ”， 而 且 〈 你 大 概 猜 到 了 ) 要 仔细 调查 才能 知道 是 先 有 鸡 还 是 先 有 蛋 。 图 13-2 展 


inode 613 人 inode 919 








图 13-2: egg 被 链接 到 chicken 


所 以 ， 这 两 个 文件 名 都 会 指向 磁盘 上 的 同一 处 。 如 果 文 件 cpnickez 里 面 有 200 个 字 节 的 数 
据 ， 那 么 eg8 里 也 会 有 相同 的 200 个 字 节 ， 而 且 两 个 加 起 来 总 共 还 是 200 个 字 节 《因为 这 
只 不 过 是 同一 份 文件 的 两 个 名 称 ) 。 如 果 Barney 为 eg8g 文 件 新 增 了 一 行文 字 ， 则 cpicken 
文件 的 结尾 处 也 会 出 现 相同 的 一 行文 字 兰 '9。 现 在 如 果 Barney 不 小 心 (或 故意 ) 删除 了 
cpicpen 文 件 ， 文 件 里 的 数据 并 不 会 丢失 ， 因 为 还 可 以 用 eg8g 这 个 文件 名 来 访问 。 反 过 来 


注 14， ”这 表示 目录 的 链接 数 一 定 等 于 子 目录 的 数量 加 上 2。 有 此 系统 上 确实 如 此 ， 但 其 他 的 系统 
可 能 有 所 不 同 。 


注 1$: “在 传统 的 15-1 输 出 中 , 硬 链 接 的 数量 会 显示 在 权限 标志 (如 -TYWXIT-XTr-x) 的 右边 。 这 个 数 
值 对 目录 来 说 总 是 大 于 1， 而 对 普通 文件 来 说 则 几乎 全 是 1， 其 中 的 道理 你 现在 应 该 知道 
了 。 

注 16: 。 当 你 尝试 建立 链接 、 更 改 文件 时 ， 请 注意 大 部 分 的 文本 编辑 器 部 不 会 “就 地 ” (in 
place) 编辑 文件 ， 而 是 将 改动 过 的 内 容 存 入 副本 再 存 回去 。 如 果 Barney 使 用 文本 编辑 器 
来 修改 eg88 ， 那 么 最 后 很 可 能 会 有 一 个 名 为 e88 的 新 文件 以 及 一 个 名 为 chicken 的 旧 文 件 。 
它们 是 两 个 不 同 的 文件 ,新 不 是 对 同一 个 文件 的 两 个 链接 。 
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说 如 果 他 删除 的 是 egg 文 件 ， 那 么 还 可 以 访问 cpicken。 当 然 如 果 他 把 两 个 文件 都 删 了 ， 
数据 就 丢失 了 [ 牌 !1。 关 于 目录 列表 里 的 链接 还 有 一 条 规定 : 在 县 录 列 表 中 所 有 inode 指 
向 的 文件 都 必须 在 同一 个 挂 载 卷 中 造 !90。 这 样 一 来 ， 即 使 将 物理 介质 (可 能 是 磁盘 ) 移 
到 另 一 台 机 器 上 ， 其 中 的 目录 和 文件 间 的 链接 仍然 有 效 。 正 因为 如 此 ，rename 虽 然 可 以 
将 文件 移 到 别 的 目录 里 ， 但 是 来 源 和 目的 地 必须 位 于 同一 个 文件 系统 ( 挂 载 卷 ) 上 。 如 
果 要 跨 磁 盘 移动 文件 ， 就 必须 重新 部 署 inode 的 数据 。 对 于 简单 的 系统 调用 来 说 ， 这 种 操 
作 实 在 太 复 杂 了 。 


链接 的 另 一 个 限制 就 是 不 能 为 目录 建立 额外 的 名 称 。 这 是 因为 目录 必须 按照 层次 排列 ， 
如 果 没 有 这 条 规则 ，Pizd 和 pwd 之 类 的 工具 程序 很 快 就 会 在 文件 系统 丛林 中 迷失 了 。 


因此 ， 不 能 增加 目录 的 链接 数 ， 也 不 能 跨 挂 载 卷 链 接 。 幸 好 ， 链接 的 这 些 固有 限制 是 可 
以 绕 过 的 ， 只 要 使 用 另 一 种 链接 方式 即 可 ， 那 就 是 符号 链接 (symbolic Link) 9。 符 
号 链接 (也 叫做 软 链接 (sop 1ink) ， 以 便 和 前 面 所 说 的 真正 的 硬 链 接 (Phard jik) 区 分 
开 来 ) 是 目录 里 的 一 种 特殊 条 目 ， 用 来 告诉 系统 实际 文件 放置 在 别 的 地 方 。 假 设 Barney 
(在 那个 诗歌 的 目录 下 ) 使 用 Perl 的 symlink 函 数 建立 一 个 软 链接 ， 如 下 所 示 ， 
symlink “dodgson" ， "caIIT0L11]” 
or Warn "can't symlink dodgson to carTolLl1: $i ”3 

这 和 Barney 在 shell 下 执行 呈 -ys dodsgsom 命 令 的 效果 相同 。 图 13-3 显 示 了 执行 的 结果 ， 包 括 
inode 7033 里 的 那 首 诗 在 内 。 


区 


adsurd2 








图 13-3: 指向 inode7033 的 符号 链接 


现在 如 果 Barney 想 读 取 /pnome/barney/poemas/carrol， 由 于 系统 会 自动 跟随 符号 链接 ， 所 





注 17: ”虽然 系统 不 一 定 会 立刻 插 盖 掉 这 个 inode， 但 在 链接 数 减 到 霍 时 通常 很 难 救 回 数据 。 你 最 
近 做 过 备份 吗 ? 


注 18: “有 个 例外 ， 就 是 存储 设备 报 目 录 里 的 .。 条目， 它 会 指向 被 挂 载 设 备 的 目录 
注 19: ”有些 非常 古老 的 Unix 系 统 不 支持 符号 链接 ， 但 近年 来 这 类 系统 已 经 非常 军 见 了 。 
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以 结果 和 直接 打开 /hnome/barneypoemsydodgsyon 相 同 。 但 是 这 个 新 名 称 并 不 是 文件 真正 的 
名 称 ， 因 为 〈 如 图 13-3 所 示 ) inode 7033 的 链接 数 仍然 只 是 1 而 已 。 符 号 链接 只 是 告诉 系 
统 : “你 如 果 是 来 这 里 找 carrolj 的 话 ， 请 到 dodgson 那 里 去 。” 


符号 链接 和 硬 链接 不 同 ， 它 可 以 跨 文 件 系 统 为 目录 建立 软 链接 (也 就 是 一 个 新 的 目录 
名 ) 。 事 实 上 ， 符 号 链接 能 指向 任何 文件 名 ， 而 不 管 它 放 在 哪个 县 录 里 ， 甚 至 还 可 以 指 
向 不 存在 的 文件 ! 不 过 ， 这 也 表示 软 链 接 不 像 硬 链接 那样 可 以 防止 数据 丢失 ， 因 为 它 并 
不 会 增加 inode 的 链接 数 。 如 果 Barney 删 掉 了 dodgson， 系 统 就 不 能 跟随 carro7 这 个 软 链 
接 了 疆 ?201。 虽 然 carrol 这 个 条 目 还 在 ， 但 是 尝试 读 取 它 会 得 到 像 file not found 这 样 的 
错误 。 此 时 ， 以 -1 “carrol1 进行 文件 测试 会 返回 真 ， 而 -e “carrol1' 则 会 返回 假 : 它 
是 个 符号 链接 ， 可 实际 上 目标 文件 并 不 存在 。 


由 于 软 链接 可 以 指向 目前 还 不 存在 的 文件 ， 所 以 在 创建 文件 时 也 很 有 用 。Barney 将 大 部 
分 文件 放 在 自己 的 主 且 录 /pome/barnaey 下 ， 不 过 他 也 经 常 需要 访问 某 个 名 称 很 长 、 难 以 
键入 的 目录 /usr/iocaWoptsysiema/pttpd/root-dewusers/stagin8g/barneycsi-pip。 因 此 他 建立 
了 /pomme/parneyay_stu1H 这 个 符号 键 接 来 指向 那个 名 称 很 长 的 上 述 目录 ， 这 样 他 要 进去 就 
很 容易 了 。 假 如 他 〈 从 自己 的 主 目录 ) 创建 了 my_stUIJbowmling 这 个 文件 ， 该 文件 的 真实 
名 称 将 会 是 /usriocaWoptsystema/pttpd/root-dewausers/sta8gin8g/parneycgi-Dibpowiling。 下 
个 星期 ， 要 是 系统 管理 员 将 Barney 的 文件 移 到 /usr/iocaopwiniernaathttpd/mwww-dewusers/ 
sia8in8/Darney/cgi-bi 上 目录， 那么 Barney 只 要 更 改 符 号 链接 指向 的 且 录 ， 他 和 他 的 程序 就 
又 可 以 轻松 地 找到 文件 了 。 


在 你 的 系统 上 ，/usrbiz/perl 或 /UsriocaWpbinper (也 可 能 两 者 皆 是 ) 常会 是 符号 链接 ， 
都 指向 真正 的 Perl 二 进 制 文件 。 假 设 你 是 系统 管理 员 ， 刚 编译 了 一 份 新 版 Perl。 旧 版 Perl 
当然 还 在 运行 ， 而 你 也 不 想 打 乱 任何 事情 。 当 你 准备 要 更 新 Perl 时 ， 只 要 更 改 一 两 个 符 
号 链接 就 行 了 。 这 样 一 来 ， 任 何以 #/xusrbin/per 开 头 的 程序 都 会 自动 改 用 新 版 的 Perl。 
要 是 出 了 什么 问题 (虽然 不 大 可 能 ) ， 只 要 改 回 原来 的 符号 链接 ， 就 又 能 切 到 旧版 Perl 
了 。 (不 过 因为 你 是 个 好 管理 员 ， 所 以 会 在 改版 之 前 先 通知 用 户 测试 新 的 /usr/Pinz/per- 
7.2。 改 版 之 后 ， 你 也 会 保留 旧版 的 Perl 一 个 月 ， 并 让 所 有 需要 这 段 过 滤 时 间 的 用 户 将 程 
序 的 第 一 行政 成 办 /usr/BinV/perl-6.7。) 


软 硬 链接 都 很 有 用 ， 这 个 事实 可 能 让 人 惊讶 。 很 多 非 Unix 系 统 役 有 任何 链接 机 制 ， 因 此 
使 用 起 来 非常 不 方便 。 可 以 阅读 peripor 文 档 ， 看 看 这 些 平台 的 最 新 进展 如 何 。 


要 取得 符号 链接 指向 的 位 置 ， 请 使 用 read1link 函 数 。 它 会 返回 符号 链接 指向 的 位 置 ， 如 





注 20: 当然 ， 删 除 carroll 只 会 删除 符号 链接 而 已 。 
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果 参 数 不 是 符号 链接 ， 则 返回 undef: 
my $wherTe = Teadljink “carIT0o11 3; # 得 到 "dodgson” 
my $perl = readlink '/usr/1local/bin/perl'; # 告诉 你 实际 的 per1 程 序 究竟 躲 在 何 处 


这 两 种 链接 都 可 以 用 un1ink 移 除 ， 你 现在 该 了 解 它 取 这 个 名 字 的 含义 了 了 吧 。un1link 只 是 
从 目录 里 移 除 该 文件 名 的 链接 条 目 ， 并 将 它 的 链接 数 递 碱 ， 必 要 时 再 释放 inode。 


创建 和 删除 目录 

要 在 现 有 目录 下 创建 新 目录 是 件 很 容易 的 事 ， 只 需 调用 nkdir 函 数 即 可 ， 
mkdir "fred'，0755 or waxzn "Cannot make fred directory: $! 

没 错 ， 返 回 值 为 真 表示 成 功 ， 失 败 时 则 会 设 定 $1 的 值 。 


可 第 二 个 参数 0755 是 什么 意思 呢 ? 它 代表 目录 建立 时 的 初始 权限 [ 往 20 (将 来 随时 可 以 再 
更 改 ) 。 写 成 八进制 数值 ， 是 因为 它 会 被 解释 成 3 位 一 组 的 Unix 权 限 值 ， 适 合用 八进制 
来 表达 。 没 错 ， 就 算 在 Windows 或 MacPerl 上， 你 也 需要 略 懂 Unix 的 权限 值 ， 才 有 办 法 使 
用 mkdir 函 数 。0755 是 个 不 错 的 设 定 ， 因 为 它 冉 予 你 完整 的 权限 ， 而 其 他 人 只 能 读 取 却 不 
能 更 改 任何 内 容 。 


”注意 mkdiz 函 数 并 不 要 求 你 用 八进制 写 这 个 值 ， 它 只 是 需要 某 个 数字 (直接 量 或 运算 结 
果 都 行 ) 。 但 除非 你 能 快速 心算 出 八进制 的 0755 等 于 十 进 制 的 493， 和 否则 还 是 让 Perl 来 算 
比较 方便 。 此 外 ， 如 果 你 不 小 心 遗 漏 了 数字 开头 的 零 ， 就 会 得 到 十 进 制 的 755， 这 等 于 
八进制 的 1363 ， 那 是 一 个 相当 奇怪 的 权限 组 合 。 
正如 第 二 章 提 过 的 ， 想 当成 数字 来 用 的 字符 串 即 使 以 0 开头 ， 也 不 会 被 解释 成 八进制 数 
字 。 所 以 下 面 这 么 写 是 行 不 通 的 ， 

my $name =“fred ; 


my $permissions = “0755"; # 危险 …… 不 能 这 么 用 
“mkdir $name，$permissions; 


糟糕 ， 因 为 0755 会 被 当成 十 进 制 处 理 ， 所 以 相当 于 我 们 用 奇怪 的 01363 权 限 值 建立 了 一 个 
目录 。 要 解决 这 个 问题 ， 请 使 用 oct() 函 数 ， 它 能 强行 把 字符 串 当成 八进制 数字 处 理 ， 无 
论 它 是 否 以 0 开头 ， 


mkdir $name，oct($permissions); 





注 21: “权限 值 通常 会 被 umask 的 值 修改 。 更 详细 的 说 明 请 参阅 Unmask(2) 文 档 。 
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当然 ， 在 程序 中 直接 指定 权限 时 ， 不 必 使 用 字符 串 ， 直 接 用 数字 就 行 了 。 通 常 是 在 用 户 
键 和 人 权限 值 时 才 会 需要 额外 的 oct() 函 数 。 举 例 来 说 ， 假设 我 们 从 命令 行 取得 参数 ， 

my (〈$name，$peIm) = @ARGV; # 从 命令 行 最 先 传人 的 两 个 参数 分 别 是 目录 名 称 和 权限 

mkdir $name，oct($perzm) or die“cannot create $name: $1”; 
变量 $p erm 的 值 一 开始 就 被 当成 字符 串 处 理 ， 所 以 oct() 函 数 会 将 它 正确 地 解释 成 通用 的 
八进制 表示 法 。 


想 移 除 空 目录 可 以 用 rmdir 函 数 它 的 用 法 和 un1ink 函 数 很 像 ， 只 是 每 次 调用 上 只 能 删除 一 个 
目录 ， 

foxreach my $dir (qw(fred baxrney betty)) { 

Imdjir $dir or warn "cannot Imdir $dir: $!Nn "3 

】} 
如 果 对 非 空 目录 调用 rzmdir 函 数 会 导致 失败 。 你 可 以 先 用 un1ink 删 除 目 录 中 的 内 容 ， 再 试 
着 移 除 已 经 清空 的 目录 。 举例 来 说 ， 人 
多 临时 文件 “2 ， 


my $temp dir = "/tmp/scratch_ $$"; # 由 进程 标识 符 决 定 ， 请 参考 正文 的 说 明 
mkdir $temp_dir，0700 or die "cannot create $temp_dir: $1"; 


# 将 临时 目录 $temp_dir 作 为 所 有 临时 文件 存放 的 场所 


unlink 8gLob "$temp_dixr/# $temp_dir/.#"; # 删除 临时 目录 $temp_ dir 中 所 有 的 文件 

Ymdjir $temp_dir; # 现在 是 空 有 目录 ， 可 以 删除 了 
初始 的 临时 目录 名 将 会 包含 当前 的 进程 标识 符 ， 每 个 当前 运行 着 的 进程 都 有 这 么 一 个 独 
一 无 二 的 数字 代号 ， 在 Perl 里 会 把 这 个 代号 存储 在 变 景 $ 中 《类 似 于 shell) 。 这 么 做 是 
为 了 避免 和 别 的 进程 冲突 ， 只 要 它们 也 在 路 径 名 称 里 包含 进程 标识 符 。 (事实 上， 通常 
在 进程 标识 符 之 外 还 会 加 上 程序 名 称 。 所 以 ， 人 那么 目录 名 称 
“多半 应 该 像 /tmp/quarTry_$$ 这 样 。) 


在 程序 结尾 处 ， 最 后 的 unlink 应 该 会 移 除 临时 目录 里 所 有 的 文件 ， 然 后 rmidir 函 数 才 有 办 
法 将 清空 后 的 目录 删除 。 不 过 ， 如 果 我 们 在 临时 目录 里 创建 了 子 目 录 ， 那 么 un1ink 操 作 
符 在 处 理 它们 时 将 会 失败 ，rmdiz 也 会 跟着 失败 。 请 参考 Perl 自 带 的 File: :Path 模 块 ， 里 
面 的 zmtree 函 数 提供 了 比较 完整 的 解决 方案 。 








注 22: “如果 你 确实 想 要 创建 一 个 临时 文件 或 目录 ， 可 以 用 Perl 自 带 的 File::Temp 模 块 。 
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修改 权限 _ 


Unix 的 cjprzod 命 令 可 用 来 修改 文件 或 目录 的 权限 。Perl 里 对 应 的 chmod 函 数 也 能 进行 同样 
的 操作 : 


chmod 0755，“'fred' ， "bazney '; 


和 许多 其 他 操作 系统 接口 函数 一 样 ，chmod 会 返回 成 功 更改 的 条 目 数量 ， 哪 怕 只 有 一 个 
参数 ， 它 也 会 在 失败 时 将 $1 设 成 合理 的 错误 信息 。 第 一 个 参数 代表 Unix 的 权限 值 (即使 


在 非 Unix 的 Per 版 本 里 也 一 样 ) 。 这 个 值 通常 会 写成 八进制 形式 ， 理 由 和 前 面 介 绍 mkdiz 
时 相同 。 


Unix 的 chmzod 命 令 能 接受 用 符号 表示 的 权限 (例如 +x 或 go=u-w) ， 但 是 chmod 函 数 并 不 接 
受 这 类 参数 E2331。 


修改 隶属 关系 


只 要 操作 系统 允许 ， 你 可 以 用 chown 函 数 修改 一 系列 文件 的 拥有 者 以 及 其 所 属 组 。 拥 有 
者 和 所 属 组 会 被 同时 更 改 ， 并 且 在 指定 时 必须 给 出 数字 形式 的 用 户 标识 符 及 组 标识 符 。 
例如 : 

my $user = 1004; 

my $8group = 100; 

Chown $user，$group，8g1Lob “#.0 ; 
如 果 要 处 理 的 不 是 数字 ， 而 是 像 merlyn 这 样 的 字符 串 呢 ? 答案 很 简单 ， 只 要 用 getpwnam 画 
数 将 用 户 名 转换 成 用 户 编号 ， 再 用 相应 的 getgrnam 二 2 函数 把 用 户 组 名 转换 成 组 编号 : 

defined(my $useT = getpwnam "merlyn') or die “bad user '; 

defined(my $group = getgrnam "users') of die “bad group ; 

Chown $user，$gxroup，8gLob “/home/merlyn/#' 
这 里 我 们 用 defined 函 数 来 检查 返回 值 不 是 undef,， 如果 指定 用 户 或 组 不 存在 就 会 返回 


undef。 


成 功 操作 后 ，chown 函 数 会 返回 受 影响 的 文件 数量 ， 在 错误 发 生 时 会 在 $! 中 设 定 出 错 信 


注 23: ”除非 你 安装 了 来 自从 CPAN 的 File::chmod 模 块 ， 这 个 模块 能 使 chmod 抬 作 蔡 升级 ， 从 而 支 
持 符 号 表示 的 权限 值 。 

广 24: 这 两 个 函数 的 名 称 可 说 是 有 史 以 来 最 丑陋 的 。 但 请 不 要 归 Larry， 他 只 是 沿用 伯克利 那 群 
人 取 的 名 字 而 已 。 
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修改 时 间 戳 


在 某 些 罕见 情况 下 ， 可 能 需要 修改 某 个 文件 最 近 的 更 改 或 访问 时 间 以 欺瞒 其 他 程序 ， 我 
们 可 以 用 ut ime 函 数 来 造假 。 它 的 前 两 个 参数 是 新 的 访问 时 间 和 更 改 时 间 ， 其 余 参 数 就 
是 要 修改 时 间 琶 的 文件 名 列表 。 时 间 格 式 采 用 的 是 内 部 时 间 改 的 格式 (也 就 是 第 十 二 章 
的 “stat 和 lstat 国 数 ” 一 节 中 介绍 的 stat 函 数 的 返回 值 类 型 ) 。 


“right now” 是 个 很 方便 的 时 间 戳 值 ， 而 time 冰 数 正 是 返回 这 种 格式 的 值 的 函数 。 所 
以 ， 如 果 想 修改 当前 县 录 下 所 有 的 文件 ， 让 它们 看 起 来 是 在 一 天 前 改动 过 ， 而 最 后 一 次 
访问 就 是 现在 ， 只 要 这 么 写 ， 

my $now = time; 

my $ago = $now - 24* 60* 60;j # 一 天 的 秒 数 

uUtime $now，$ago，8glob “* ; # 将 最 后 访问 时 间 改 为 当前 时 间 ， 最 后 修改 时 间 改 为 一 天 前 
当然 ， 你 可 以 随意 修改 文件 的 时 间 王 ， 将 它 设 成 未 来 或 过 去 的 任何 时 间 (直到 我 们 能 
64 位 的 时 间 蕉 之 前 ， 在 Unix 上 只 能 设 成 1970 年 到 2038 年 之 间 ， 其 他 系统 则 可 能 各 有 不 
同 ) 。 也 许 你 可 以 利用 这 个 技巧 来 创建 某 个 上 且 录 ， 用 来 存放 你 写 的 时 间 旅 行 小 说 的 手 
稿 。 
在 文件 有 任何 更 动 时 ， 第 三 个 时 间 改 (ctime 值 ) 一 定 会 被 设 成 “now (当前 时 刻 ) ”， 
所 以 utime 函 数 没 法 修改 它 就算 用 ut ime 修 改 成 功 ， 它 也 会 立刻 被 设 回 当前 时 刻 ) 。 这 
是 因为 ctime 主 要 是 给 增 量 备份 的 程序 用 的 ; 如 果 某 个 文件 的 ctime 比 磁带 上 的 新 ， 那 它 
就 该 被 再 次 备份 了 。 


习题 

下 面 的 程序 可 能 会 造成 危险 ! 请 在 没什么 重要 文件 的 目录 下 测试 ， 以 免 不 小 心 删除 重要 
数据 。 

以 下 习题 答案 参见 第 329 页 上 的 “第 十 三 章 习 题解 答 ” 一 节 :; 


1 [12] 写 一 个 程序 ， 让 用 户 键入 一 个 目录 名 称 并 从 当前 目录 切换 过 去 。 如 果 用 户 键入 
一 行 空 白 符 ， 则 以 用 户主 目录 作为 默认 目录 ， 所 以 应 当 会 切换 到 他 本 人 的 主 且 录 
中 。 然 后 输出 该 目录 的 内 容 (不 含 名 称 以 点 号 开头 的 文件 ) 并 按照 英文 字母 顺序 排 
列 。 (提示 : 用 目录 句柄 还 是 用 文件 名 通 配 更 容易 昵 ? ) 如 果 切 换 目 录 失 玫 则 应 显 
示警 告 信息 ， 但 不 必 输 出 目录 内 容 。 

2 [4 修改 前 题 程序 ， 让 它 输 出 所 有 文件 ， 包 括 名 称 以 点 号 开头 的 文件 。 

3. [5] 如 果 你 在 前 题 使 用 的 是 目录 句柄 ， 那 么 请 以 文件 名 通 配 重 写 一 次 ， 如 果 使 用 的 
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是 文件 名 通 配 ， 那 么 请 以 目录 句柄 重 写 一 次 。 


4 [6] 编 写 功能 和 rm 类 似 的 程序 ， 删 除 命令 行 指定 的 任何 文件 〈 不 用 支持 rm 的 所 有 参 
数 ) 。 


5 [10] 编 写 功能 和 my 类 似 的 程序 ， 将 命令 行 的 第 一 个 参数 重 命 名 为 第 二 个 参数 〈 不 必 
实现 my 的 各 种 选项 或 任何 额外 的 参数 ) 。 别 忘 了 第 二 个 参数 可 以 是 目录 。 假 如 它 
“是 目录 ， 请 在 新 目录 中 使 用 原来 的 基 名 。 


6， [7] 如 果 你 的 系统 支持 ， 写 一 个 功能 和 /类 似 的 程序 ， 建 立 从 第 一 个 参数 到 第 二 个 参 
数 的 硬 链接 (不 必 实 现 1m 的 各 种 选项 或 额外 参数 ) 。 如 果 系 统 不 支持 硬 链接 ， 那 只 
要 输出 关于 它 本 来 会 进行 的 操作 的 信息 就 行 了 。 提 示 : 这 个 程序 和 前 一 题 有 点 像 ， 
希望 这 个 提醒 可 以 节省 你 写 程序 的 时 间 。 

7. [7] 如 果 操 作 系统 支 持 ， 请 修改 上 题 程序 ， 让 它 接 受 可 能 出 现在 其 他 参数 之 前 的 -s 
选项 。 此 选项 表示 要 建立 的 是 软 链接 ， 而 非 硬 链接 (即使 系统 无 法 使 用 硬 链 接 ， 也 
请 用 这 个 程序 试 试看 是 否 至 少 能 建立 软 链接 ) . 。 


8 [7] 如 果 操 作 系统 支 持 ， 写 一 个 程序 ， 让 它 在 当前 目录 下 查找 所 有 符号 链接 并 输出 
它们 的 值 (和 zs-; 的 格式 一 样 ，name->value) 。 
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第 十 四 章 


字符 串 与 排序 


在 Perl 擅 长 处 理 的 问题 中 ， 约 有 90% 与 文本 处 理 有 关 ， 其 余 10% 则 覆盖 了 其 他 领域 。 所 
以 毋庸 置疑 ，Per1l 的 文本 处 理 能 力 很 强 ， II 
证 。 不 过 ， 有 时 正则 表达 式 引 擎 对 你 而 言 可 能 太 过 花哨 ， 多 数 时 候 你 只 需要 简单 的 字符 
串 处 理 功 能 。 人 


用 index 查 找 子 字符 虽 


查找 子 字符 串 其 实 也 就 是 要 找 出 它 在 主 字符 串 中 的 相对 位 置 。 如 果 是 在 某 个 较 长 的 主 字 
符 串 中 ， 可 以 借助 index 函 数 解决 这 个 问题 。 例 如 : 


4$where = index($big，$sma]l1); 


全 作 抽 二 作证 和 林村 本 全 作 生 有 从 全 现 的 地 方 ， 并 返回 一 个 整数 表示 第 一 个 
字符 的 匹配 位 置 ， 返 回 的 字符 位 置 是 从 零 算 起 的 。 如 果子 字符 串 是 在 字符 串 最 开始 的 
位 置 找到 的 ， 那 么 index 会 返回 0， 如 果 在 第 二 个 字符 ， 则 返回 1; 如 果 index 无 法 找到 子 
串 ， 就 会 返回 -1 二 1。 在 这 个 例子 里 ，$where 会 得 到 6: 

my $stuff = “Howdy wor1dl ”; 

my $where = index($stuff， ”wor ”); 
另 一 种 理解 位 置 的 方法 ， 就 是 把 它 当成 要 走 到 子 字符 串 之 前 需要 跳 过 的 字符 数 。 因为 
$where 是 6， 人 必须 跳 过 $stuff 的 前 6 个 字符 ， 才 会 走 到 wor。 


注 1: 之 前 使 用 C 的 程序 员 肯 定 会 注意 到 这 类 似 于 C 语 言 的 index 函 数 。 如 今 的 C 程 序 员 也 可 能 知 
道 ， 但 此 时 要 想 真 正 理解 目前 的 话题 ， 你 最 好 是 那个 前 C 程 序 员 。 
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index 国 数 每 次 都 会 返回 首次 出 现 子 字符 串 的 人 位置。 不过， 你 可 以 再 加 上 可 选 的 第 三 个 
参数 来 指定 开始 搜索 的 地 方 ， 这 样 index 就 不 会 从 字符 串 的 最 开头 寻找 ， 而 是 从 该 参数 
指定 的 位 置 开 始 寻找 子 字符 串 ， 

my $stuff =“Howdy worldl”; 

my $wherel = index($stuff，"wW") # $where1 为 2 


my $where2 = index($stuff， "ww ，$where1 + 1); # $where2 为 6 
my $uhere3 = index($stuff，"w" ，$uhere2 + 1); # $uhere3 为 -1 《 设 找到 ) 


(当然 ， 要 重复 搜索 某 个 子 字符 串 时 通常 会 使 用 循环 。) 第 三 个 参数 相当 于 可 能 的 最 小 
返回 值 ， 如 果子 字符 串 无 法 在 该 位 置 或 其 后 被 找到 ， 那 么 index 就 会 返回 -1。 


偶尔 你 会 需要 搜索 子 字符 串 最 后 出 现 的 位 置 。 这 项 信息 可 以 用 rindex 函 数 来 取得 ， 它 会 
从 字符 串 末 尾 的 地 方 开始 找 起 。 在 下 面 的 例子 中 ， 可 以 找到 最 后 一 个 斜 线 ， 它 在 字符 串 
中 的 位 置 是 4，. 这 和 index 返 回 的 结果 是 一 样 的 ， 


my $last_slash 3 Tindex("/etc/passwd"，"/"); # 值 为 4 

rindex 函 数 也 有 可 选 的 第 三 个 参数 ， 但 这 里 是 用 来 限定 返回 值 的 上 限 : 
my $fred = “Yabba dabba dool”; 
my $wuhere1 = xindex($fred， "abba"); # 4$wherel 为 7 


Why $where2 = Tindex($fred，"abba"，$wherel - 1); # $where2 为 1 
my $uhere3 = Tindex($fred，"abba"，$where2 - 1); # $where3 为 -1 


用 substr 操 作 子 字符 串 

substz 函 数 只 处 理 较 长 字符 串 中 的 一 小 部 分 内 容 ， 大 臻 用 法 如 下 ， 

my $part =< substr($string，$initial_position，$length); 

它 需 要 三 个 参数 ， 一 个 原始 字符 串 、 一 个 从 零 起 算 的 起 始 位 置 (类似 index 的 返回 值 
以 及 子 字 符 串 的 长 度 。 找 到 的 子 字符 串 会 被 返回 ， 


my $mineral = substr("Fred ]， Flintstone"，8，5); # 返回 "FL1int" 

my $rock = Substr “Fred ]。Flintstone"，13，1000;j 提 返回 "stone" 
在 上 面 的 例子 里 你 可 能 已 经 注意 到 了 ， 假 如 所 要 求 的 子 字 符 串 的 长 度 (此 例 为 1000 个 字 
符 ) 超出 字符 串 的 结尾 ，Perl 不 会 抱 龟 ， 只 不 过 你 会 得 到 比 预期 长 度 (1000) 短 的 字符 
串 。 如 果 你 想 要 一 直 取 到 字符 串 结 尾 ， 那 么 不 论 字符 串 长 短 ， 只 要 省 略 第 三 个 参数 ( 子 
字符 串 长 度 ) 就 行 了 。 做 法 如 下 : 


my $pebbje = SubstTr “Fred ]。 Flintstone"，13; # 返回 "Stone” 
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一 个 较 大 字符 串 中 子 字符 串 的 起 始 位 置 可 以 为 负 值 ， 表 示 从 字符 串 结尾 开始 倒数 〈 比 
如 ， 位 置 -1 就 是 最 后 一 个 字符 ) [ 往 3。 在 下 面 的 例子 中 ， 位 置 -3 是 从 字符 串 结尾 算 起 的 
第 三 个 字符 ， 也 就 是 字母 j 的 位 置 ; 


my $out = substr("some Very long string"，-3，2); .## $out 为 “in" 


人 8 index 与 sSubstr 可 以 紧密 合作 。 在 下 面 的 例子 里 ， 我 们 会 取出 以 字符 1 的 位 置 
my 4long = “Some Very VveIy long string”; 
my $right = substr($long，jindex($long， ”1 ) ); 
接 下 来 就 很 有 意思 了 : 假如 原始 字符 串 放 在 变量 里 面 ， 我 们 就 可 以 修改 该 字符 串 被 选取 
的 部 分 内 容 “ 
my $string =“Hel1o，wor1dl"; 
substr($string，0，5) = "Goodbye"; # $string 现在 的 值 为 “Goodbye，wor1ld!" 
如 你 所 见 ， 用 来 取代 的 〈( 子 ) 字符 串 的 长 度 并 不 一 定 要 与 被 取代 的 子 字符 串 的 长 度 相 
同 ， 字 符 串 会 自行 调整 长 度 。 如 果 这 样 还 不 能 让 你 眼前 一 亮 ， 你 还 可 以 用 绑 定 操作 符 
(=>) 只 对 字符 串 的 某 部 分 进行 操作 。 下 面 的 例子 只 会 处 理 字符 串 的 最 后 20 个 字符 ， 将 
所 有 的 fred 刺 换 成 barney ; 


substr($string，-20) =>~ s/fred/barney/g; 
substr 与 jndex 能 办 到 的 事 多 半 也 能 用 正则 表达 式 办 到 。 所 以 ， 请 选择 最 适合 解决 问题 的 
方法 。 但 是 substr 与 index 通 常会 快 一 点 ， 因 为 它们 没有 正则 表达 式 引擎 的 额外 负担 : 它 
们 总 是 区 分 大 小 写 ， 它 们 不 必 担 心 元 字符 ， 而 且 也 不 会 动用 仕 何 内 存 变量 。 


如 果 不 想 给 substt 函 数 赋 值 (因为 乍 看 之 下 会 觉得 有 点 奇怪 ) ， 你 也 可 以 通过 传统 
的 { 秆 4] 4 个 参数 的 方法 来 使 用 substr， 其 中 第 4 个 参数 是 替换 子 字符 串 : 





注 2， 这 与 第 三 章 中 介绍 的 数组 索引 方式 类 似 。 数 组 应 该 由 0 开始 (表示 第 一 个 元 素 ) 往 上 数 ， 
或 是 从 -1 (表示 最 后 一 个 元 素 ) 开始 往 下 数 。 子 字符 串 的 位 置 也 是 从 0 开始 (表示 第 一 个 
字符 ) 往 上 数 ， 或 是 从 -1 (表示 最 后 一 个 字符 ) 往 下 数 。 

注 3; 从 技术 上 来 讲 ， 只 要 是 左 值 1value 邦 行 。 但 此 名 词 的 精确 定义 超出 了 本 书 的 范围 ， 

以 简单 地 想 成 所 有 能 放 在 赋值 号 (=) 左边 的 东西 。 通 常 该 处 放 的 都 是 变量 ， 但 是 如 同 这 
里 所 示 ， 也 可 以 放 substr 操 作 符 。 

注 4: 这 里 的 “传统 ” 指 的 是 “函数 调用 ”的 传统 风格 ， 而 不 是 指 Perl 自 己 的 传统 风格 。 国 为 

这 个 写法 是 不 久之 前 才 引 进 Peri 的 。 
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my $previous_value = substr($string，0，5， "Goodbye"); 


返回 值 是 替换 前 的 子 串 。 当 然 ， 你 总 是 能 在 空 上 下 文中 使 用 这 个 函数 ， 不 用 关心 它 的 返 
回 值 。 


四 3 en 
用 sprintf 格 式 化 字符 虽 
spzintf 函 数 与 printf 有 相同 的 参数 (可 选 的 文件 句柄 参数 除外 ) ， 但 它 返 回 的 是 所 请 求 
的 字符 串 ， 而 不 会 直接 打印 出 来 。 此 国 数 方便 之 处 在 于 ， 你 可 以 将 格式 化 后 的 字符 串 存 
放 在 变量 里 以 便 稍 后 使 用 。 此 外 ， 你 也 可 以 对 结果 进行 额外 的 处 理 ， 面 单 靠 printf 是 做 
不 到 这 些 的 ， 

my $date_ tag = Sprint 了 

”%4d/7%O2d/%02d %2d:%02d:%02d"， 

$yT，$mo，$da，$h，$m，$s; 
在 上 面 的 例子 里 ，$data_ta8g 会 得 到 类 似 "2038/01/19 3:00:08" 的 结果 。 我 们 看 到 ， 格 式 
字符 串 〈 即 sprintf 函 数 的 第 一 个 参数 ) 在 某 些 格式 化 数字 前 加 上 零 ， 这 种 用 法 我 们 在 第 
五 章 中 介绍 printf 时 并 未 提 及 。 格 式 化 定义 中 数字 字段 的 前 置 零 表示 必要 时 会 在 数字 前 
补 零 以 符合 指定 的 宽度 要 求 。 如 果 没 有 前 置 零 ， 那 么 日 期 与 时 间 字 符 串 里 的 数字 就 不 会 
用 零 补 足 宽度， 而 只 留 下 相应 长 度 的 空格 ， 比 如 "2038/ 1/ 19 3: 0: 8"。 


用 sprintf 格 式 化 金额 数字 


spzrintf 的 一 种 常见 用 法 就 是 格式 化 小 数 点 后 具有 特定 精度 的 数字 ， 比 如 想 把 2.49997 这 
个 金额 显示 成 2.50， 而 不 是 2.5， 我 们 可 以 使 用 "%.2f"* 这 个 字符 串 轻松 完成 格式 化 : 


my $money = Sprintf “%.2f"，2.49997; 


四 售 五 人 能 够 使 得 数字 精简 并 且 易 读 ， 但 是 绝 大 多 数 情况 下 应 该 保留 数字 的 精度 ， 只 在 
输出 时 做 四 舍 五 人 运算 。 


如 果 手 头 有 个 “金额 数字 (money number) ”非常 大 ， 大 到 需要 使 用 喜 号 来 分 隔 才能 有 
效 阅 读 ， 那 么 下 面 这 个 子 程序 能 提供 很 多 便利 生 31， 
Sub big_money { 


my $number = Sprintf “%.2f"，shift 6@ 
# 下 面 的 循环 中 ， 每 次 在 匹配 到 的 合适 位 置 加 一个 到 号 


注 $: 是 的 ， 我 们 也 知道 并 非 金 世界 的 数字 都 是 三 个 数字 一 组 ， 也 不 是 全 世界 的 数字 都 用 过 
人 
细节 。 
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1 while $number = SA(-?Nd+)(\d\d\d)1$1，$27; 
# 在 正确 的 位 置 补 上 美元 符号 

$number =>” SA/^(-?)/$1N$/; 

$number; 


} 
这 个 子 程序 用 了 一 些 前 面 没 见 过 的 技巧 ， 但 不 难 推测 其 含义 。 子 程序 的 第 一 行 是 在 对 第 
一 个 〈 也 是 唯一 的 ) 参数 进行 格式 化 ， 让 它 在 小 数 点 之 后 刚好 有 两 位 数字 。 也 就 是 说 ， 
假如 参数 是 12345678.9， 那 么 gnumber 就 会 是 "12345678.90" 。 


程序 代码 的 下 一 行 用 到 了 while 修 饰 符 。 就 像 之 前 第 十 章 , 其 他 控制 结构 中 介绍 修饰 符 时 
提 到 的 ， 我 们 可 以 将 它 改写 成 一 个 传统 while 循 环 ， 

while ($number => SA(-?N\d+)(Mdvd\d)4$1,$27) 

1; 

】} 
这 到 底 是 在 做 什么 ? 其 实 这 里 的 意思 是 ， 只 要 这 个 替换 运算 返回 真 (表示 成 功 ) ， 就 
去 执行 循环 主体 。 但 是 循环 里 的 程序 没有 任何 作用 ! 对 Perl 来 说 ， 这 没关系 ， 这 不 过 
是 要 让 我 们 知道 ， 该 语句 的 主要 目的 是 在 执行 条 件 表达 式 (替换 运算 ) ， 而 不 是 这 个 
无 用 的 循环 主体 。 这 么 做 时 习惯 上 会 使 用 数值 1 来 作为 占 位 符 ， 其 实 任何 数值 都 可 以 使 
用 [ 镁 9。 下 面 这 行程 序 代码 与 上 面 的 循环 有 相同 的 效果 ， 


"keep looping” while $numbexr =>~ S/A(-?\d+)(AdNd\d)7/$1)$27; 


所 以 ， 现 在 我 们 知道 替换 运算 是 该 循环 的 真正 目的 。 但 此 处 的 替换 运算 又 做 了 什么 事 ? 
别 忘 了 ， 这 里 的 gnumbez 是 个 像 "12345678.90" 这 样 的 字符 串 。 上 面 的 模式 会 匹配 字符 串 
- 的 第 一 个 部 分 ， 但 它 不 会 越过 小 数 点 (你 知道 为 什么 吗 ? ) 。 内 存 变 量 $4 会 是 "12345"， 
而 $2 会 是 "678" ， 所 以 这 个 坎 换 运算 会 让 $numb ez 变 成 "12345,678.90"( 别 忘 了 ， 它 不 会 
匹配 小 数 点 ， 所 以 字符 串 后 面 的 部 分 并 不 会 改变 ) 。 


你 知道 模式 开头 的 减 号 有 什么 用 处 么 ?” 提示: 这 个 减 号 只 能 在 字符 串 中 的 一 个 地 方 出 
现 ) ， 在 本 节 结 束 时 ， 万 一 你 还 没 找到 答案 ， 可 以 看 看 我 们 的 解答 。 


整个 替换 过 程 并 非 到 此 为 止 。 既 然 替 换 运 算 成 功 了 ， 这 个 无 事 可 做 的 循环 就 会 
再 来 一 次 。 因 为 这 次 模式 无 法 匹配 到 逗号 之 后 的 任何 东西 ， 所 以 $n umbez 会 变 成 
"12,345,678.90"。 于 是 在 每 次 循环 执行 后 ， 替 换 运 算 就 会 在 数字 中 加 一 个 喜 号 。 


循环 的 工作 还 没完 呢 。 因 为 上 一 次 替换 成 功 了 ， 所 以 又 会 重新 开始 循环 。 但 由 于 模式 必 


注 6;， ”也 就 是 说 ， 随 便 写 什么 都 一 样 。 顺 带 一 提 ，Perl 会 对 常量 表达 式 进行 优化 ， 因 此 不 会 花 
任何 运行 时 间 。 
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须 匹配 从 字符 串 开 头 的 至 少 4 个 数字 ， 所 以 这 一 次 它 无 法 匹配 任何 东西 ， 于 是 就 退出 循 
环 。 


为 什么 我 们 不 直接 使 用 /g 修 饰 符 来 进行 “全 局 ”查找 与 替换 ， 以 省 下 1 while 循 环 造成 的 
麻烦 与 混淆 昵 ?这 是 因为 必须 从 小 数 点 倒 回 处 理 ， 而 不 是 从 字符 串 开 头 依次 处 理 ， 所 以 
不 能 这 么 做 。 像 这 样 将 逗号 插 人 一 个 数字 里 ， 只 用 s///g 是 没 办 法 做 到 的 [ 注 1。 你 想到 
减 号 的 作用 了 吗 ? 它 让 程序 也 可 以 处 理 负 号 开始 的 数值 字符 串 。 程 序 代码 的 下 一 行 也 有 
“一 样 的 效果 : 它 会 把 美元 符号 放 在 正确 的 地 方 ， 所 以 $number 会 变 成 "$12,345,678.90"; 
如 果 是 负数 ， 则 会 变 成 "-$12,345,678.90"。 请 注意 ， 美 元 符号 不 一 定 会 是 字符 串 的 首 字 
母 ， 不 然 这 行 代码 会 简单 许多 。 最 后 ， 结尾 的 程序 代码 会 返回 我 们 已 经 格式 化 得 淋淋 亮 
亮 的 “金额 数字 ”， 可 以 送 到 年 度 报 表 里 打 印 了 。 


非 十 进 制 数 字 字符 串 的 转换 
-如 果 有 一 个 以 其 他 进 制 表示 的 数字 字符 串 ， 我 们 可 以 用 hex() 或 oct() 函 数 将 字符 串 转换 
为 对 应 的 数字 。 有 一 点 非常 赞 ， 如 果 字 符 串 是 以 特定 的 十 六 进 制 或 二 进 制 前 级 字符 开头 的 
话 ，oct() 函 数 能 隆 明 地 根据 该 进 制 进行 转换 ， 不 过 十 六 进 制 字符 串 必 须 以 0ox 开 头 ， 请 参 
考 具体 例子 


hex( "DEADBEEF' ) # 即 十 进 制 的 3 _735_928_559 
hex( "0xDEADBEEF')  # 也 是 十 进 制 的 3 _735_928_559 


oct( "0377 ' ) # 十 进 制 的 255 

oct("377 ) # 也 是 十 进 制 的 255 

oct("0xDEADBEEF')  # 是 十 进 制 的 3 _735_928_559， 因为 看 到 了 开头 的 0x 
oct( 0b1101 ) # 是 十 进 制 的 13， 因为 看 到 了 开头 的 0b 


oct("0b$bits") # 将 变量 $bits 中 的 值 当 作 二 进 制 数字 转换 到 十 进 制 


高 级 排序 

之 前 在 第 三 章 中 介绍 如 何 了 利用 内 置 的 Sort 操作 符 ， 以 ASCII 码 序 对 列表 排序 。 但 如 果 
你 希望 按 数字 大 小 进行 排序 ， 或 以 不 区 分 大 小 写 的 方式 进行 排序 呢 ? 你 也 许 还 想 按 照 存 
储 在 哈 希 内 的 信息 进行 排序 。Perl 能 以 任何 需要 的 顺序 来 为 列表 排序 。 接 下 来 一 直到 本 
章 末 ， 我 们 会 介绍 所 有 有 关 排 序 的 主题 以 及 实际 的 例子 


Perl 人 允许 你 建立 自己 的 “排序 规则 子 程序 (sorf-defiaition subroxlie) ”， 或 简称 “排序 
子 程序 (sort subrottine) ”， 来 实现 自 定义 的 排序 方式 。 乍 听 到 “排序 子 程序 ”这 个 术 





注 7: 至 少 还 得 使 上 几 招 我 们 从 没 教 过 你 的 正则 表达 式 技巧 ， 才 能 完成 任务 。 那 么 要 命 的 Perl 
开发 小 组 就 知道 让 书 越 来 越 难 写 ， 所 以 我 们 只 好 一 直 说 “不 行 ”， 
,/ 
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语 ， 如 果 你 上 过 任何 一 门 计算 机 科学 的 课程 ， 脑 海中 就 可 能 会 浮现 全 人 、 和 希 尔 排 
序 和 快速 排序 。 然 后 你 会 说 : “拜托 ， 别 再 谈 这 些 了 ! ”请 放心 ， 事 情 疫 那么 复杂 ， 其 
实 还 相当 简单 。 人 
排序 子 程序 只 是 用 来 说 明 有 具体 的 规则 。 


为 什么 会 有 这 样 的 需求 ? 仔细 想 想 ， 排 序 其 实 就 是 比较 一 堆 东西 ， 然 后 将 它们 按照 特定 
规则 排 好 队 。 由 于 不 可 能 一 次 比较 所 有 东西 ， 所 以 最 终 一 定 都 是 两 两 相 比 ， 并 根据 两 者 
间 的 顺序 进行 定位 ， 最 终 让 全 体 成 员 就 位 。Perl 已 经 知道 这 些 步骤 了 ， 只 是 不 知道 你 要 
.如 何 确定 两 者 的 顺序 ， 而 这 就 是 需要 由 你 来 写 的 程序 。 


这 也 就 是 说 ， 排 序 子 程序 并 不 需要 排序 许多 元 素 ， 只 要 能 比较 两 个 元 素 就 行 。 只 要 它 能 
确定 两 个 元 素 的 顺序 ，Perl 就 有 办 法 〈 通 过 不 断 咨询 排序 子 程序 ) 返回 排 好 序 的 数据 。 


排序 子 程序 的 定义 和 普通 的 子 程序 几乎 相同 。 它 会 被 反复 调用 ， 每 次 都 会 检查 要 排序 列 
表 中 的 两 个 元 素 。 


假如 子 程序 要 比较 两 个 待 排序 的 参数 ， 你 可 能 会 先 写 出 如 下 代码 


sub any_sort_sub # 实际 上 这 么 写 不 能 正确 工作 ， 这 里 只 是 为 了 方便 说 明 问 题 
my($a，$b) = @_; # 声明 两 个 变量 并 给 它们 赋值 
# 开刀 5 


】 


但 请 注意 ， 排 序 子 程序 会 一 次 次 地 被 调用 ， 往 往 会 运行 上 百 或 上 千 次 ， 这 取决 于 被 排序 
数据 的 规模 。 在 子 程序 开始 的 地 方 声明 变量 $a 与 $b 并 给 它们 赋值 看 起 来 只 会 花 一 丁点 时 
间 ， 但 把 这 些 时间 乘 以 排序 子 程序 被 调用 的 次 数 ， 就 可 能 非常 可 观 了 ， 这 对 整体 性 能 会 
造成 不 小 影响 。 


我 们 并 不 会 这 么 做 ， 事 实 上 这 么 做 是 行 不 通 的 。 其 实在 子 程序 开始 之 前 ，Perl 已 经 帮 有 我 
们 办 好 了 这 些 事 。 实 际 写 出 的 排序 子 程序 并 不 会 有 前 面 例子 的 第 一 行 ，$a 与 $ 都 已 经 被 
自动 赋值 好 了 。 当 排序 子 程序 开始 运行 时 ，$a 与 $b 会 是 两 个 来 自 原始 列表 的 元 素 。 


子 程序 会 返回 一 个 数字 ， 用 来 描述 两 个 元 素 之 间 的 比较 〈 就 像 C 语 言 中 qsort(3) 所 做 
的 ， 但 它 是 Perl 自 己 内 部 的 排序 实现 。 假 如 在 结果 列表 中 $a 应 该 在 $b 之 前 ， 排 序 子 程序 
就 会 返回 -1， 如 果 和 应 该 在 $a 之 前 ， 它 就 会 返回 1。 


如 果 $a 与 $ 无 所 谓 谁 先 谁 后 ， 则 该 子 程序 会 返回 0。 为 什么 会 有 这 样 的 情况 呢 ? 也 许 你 正 
在 进行 一 个 不 区 分 大 小 写 的 排序 ， 而 被 比较 的 两 个 字符 串 是 fred 和 Fred; 或 者 ， 你 正在 
进行 一 个 按 数 字 大 小 的 排序 ， 而 这 两 个 数字 恰好 相等 。 


现在 我 们 可 以 写 出 下 面 这 样 的 排序 子 程序 : 
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sub by_numbexr 
# 排序 子 程序 ， 使 用 $a 和 和 b 这 两 个 变量 进行 比较 
if ($a $b)({ -1j}elsif ($a >$){1jelseto} 


要 使 用 这 个 排序 子 程序 ， 请 把 它 的 名 称 (去 掉 与 号 ) 写 在 sort 关 键 字 与 待 排序 的 列表 之 
闻 。 下 面 的 例子 会 把 按 数 字 大 小 排序 好 的 结果 列表 放 进 eresult 里 ， 


my @result = Sort by_number @some_numbers， 


我 们 将 这 个 排序 子 程序 命名 为 by_number， 因 为 这 个 名 称 描述 了 它 的 排序 方式 。 不 过 
更 重要 的 是 ， 你 可 以 将 这 一 行 用 来 排序 的 程序 代码 读 成 “sort by number 〈 按 数字 排 

序 ) ”， 就 好 像 在 说 英语 一 样 。 许 多 排序 子 程序 的 名 称 都 是 以 by_ 开 头 的 ， 用 以 描述 它们 
的 排序 方式 。 类 似 地 ， 人 不 过 这 样 要 输入 更 
多 字符 ， 而 且 还 比较 容易 写 错 。 


请 注意 ， 在 排序 子 程序 中 ， 我 们 并 不 需要 花 力气 声明 并 设 定 $a 与 $， 如 果 我 们 这 么 做 ， 
该 子 程序 反而 无 法 正常 运作 。 请 让 Perl 帮 忙 设 定 $a 与 $b， 我 们 只 要 编写 它们 的 比较 方 
式 。 

事实 上 ， 我 们 可 以 让 它 更 简单 高 效 。 因 为 常常 需要 用 到 这 样 的 三 路 比较 ， 所 以 Perl 提 供 
了 一 个 方便 的 简写 ， 飞 船 操 作 符 (<=>) 让 9。 这 个 操作 符 会 比较 两 个 数字 并 返回 -1、 
0 或 1， 好 让 它们 依 数字 排序 。 所 以 ， 我 们 可 以 把 那个 排序 子 程序 写 得 更 好 看 些 ， 如 下 所 
砂 : 


sub by_number { $a <=> $b } 


因为 飞碟 操作 符 只 能 用 来 比较 数字 ， 所 以 你 也 许 猜 到了， 会 有 另 一 个 相应 的 三 路 字符 串 
比较 操作 符 : cmp。 这 两 个 操作 符 非 常 易 记 ， 而 且 一 目 了 然 。 飞 船 操作 符 与 数字 比较 类 
的 操作 符 >= 一 脉 相 承 ， 它 之 所 以 由 三 个 字符 组 成 ， 是 因为 它 会 返回 三 种 比较 结果 ， 而 两 
个 字符 的 操作 符 则 返回 两 种 结果 。 同 样 地 ，cmp 操 作 符 与 字符 串 比较 类 的 操作 符 ge 一 脉 相 
承 ， 它 也 是 返回 三 种 比较 结果 的 操作 符 外 ?5。 当 然 ，cmp 所 提供 的 顺序 与 sort 软 认 的 排序 
规则 相同 。 所 以 你 不 必 自己 编写 下 列子 程序 ， 因 为 它 和 sort 软 认 的 排序 方法 相同 二 10， 





注 8: 和 起 码 我 们 觉得 
很 像 。 


注 9: 这 并 非 偶然 。Larry 这 么 做 是 为 了 让 Perl 更 好 学 ， 也 更 好 记忆 。 他 骨子里 就 是 个 语言 学 
家 ， 所 以 他 深 知 学 习 语 言 的 痛苦 。 
注 10: ”除非 你 也 在 写 一 本 Perl 入 门 世 并且 需要 举例 说 明 ， 否 则 永远 不 会 需要 自己 写 。 
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sub by_code_point { $a cmp $b } 
my @strings = sort by_code_point @any_strings; 

不 过 ，cmp 可 以 用 来 建立 更 复杂 的 排序 顺序 ， 例 如 不 区 分 大 小 写 的 排序 ， 
Sub case_jinsensitive {“\L$a”cmp "\L$b”} 


这 个 例子 中 ， 我 们 比较 了 $a 里 的 字符 串 (强制 转换 成 小 写 ) 和 $b 里 的 字符 串 〈 强 制 转换 
成 小 写 ) ， 以 构造 不 区 分 大 小 写 的 排序 顺序 。 


不 过 ， 你 要 知道 Unicode 字 符 串 里 面 的 字符 有 时 可 以 用 不 同 的 形式 表示 ， 为 了 按照 实际 
的 字符 意义 排序 ， 我 们 需要 先 把 某 种 表示 形式 转化 为 统一 的 形式 后 再 进行 比较 排序 。 有 
关 这 方面 的 知识 ， 我 们 放 在 附录 C 介 绍 。 所 以 一 般 来 说 ， 要 对 Unicode 字 符 串 排序 ， 都 会 
写成 下 面 这 种 样子 ; 

use Unicode: :Normalize; 


.Sub equivalents { NFKD($a) cmp NFKD($b) } . 
另外 需要 注意 的 是 ， 在 比较 过 程 中 我 们 并 没有 修改 被 比较 元 素 的 值 ! 主 11， 我 们 只 是 用 
它们 的 值 比 大 小 而 已 。 这 一 点 很 重要 : 出 于 性 能 的 考虑 ，$a 和 和 并非 数据 项 拷贝 ， 实 际 


上 它们 只 是 原始 列表 元 素 的 临时 别名 。 所 以 ， 如 果 中 途 改 变 它们 的 值 ， 就 会 弄 乱 原始 数 
据 。 千 万 别 这 人 么 做 9 Perl 不 支持 也 不 建议 这 种 行为 o 


如 果 排 序 子 程序 像 我 们 的 例子 一 样 简单 (大 部 分 情况 下 都 很 简单 ) ， 你 就 可 以 让 程序 代 
码 更 为 简单 ， 只 要 把 整个 排序 子 程序 内 妃 到 排序 子 程序 名 的 位 置 就 行 了 。 做 法 如 下 : 


my @numbers = sort { $a <=》4$b } esome_numbers; 
事实 上 ， 在 如 今 的 Perl 开 发 界 ， 几 乎 不 会 有 人 号 额外 的 排序 子 程序 ， 你 常常 会 看 到 这 种 
内 嵌 的 排序 子 程序 。 
假设 要 以 递减 的 顺序 进行 排序 ，reverse 函 数 可 以 帮助 我 们 轻松 达成 
my @descending = Teverse Sort { $a 《=>$b } 6@some_numbers; 


这 里 有 个 小 穿 门 。 比 较 操 作 符 (<=y 与 cmp) 是 短视 的 ， 也 就 是 说 ， 它 们 并 不 知道 哪个 操 
作 数 是 $a ， 哪 个 操作 数 是 $b， 只 知道 哪 一 个 在 左边 ， 哪 一 个 在 右边 。 所 以 ， 如 果 我 们 把 
和 a 与 撮 对 调 ， 比 较 操作 符 每 次 就 会 得 到 相反 的 结果 。 换 名 话说， 下 面 这 么 做 也 能 得 到 反 
向 排序 的 结果 


注 11: ”除非 调用 的 比较 子 程序 内 部 对 比较 的 内 容 作出 修改 ， 不 过 那 种 情况 十 分 罕见 。 
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my @descending = sort { 和 “=> $a } 6@some_numbers; 


稍 加 练习 之 后 ， 你 就 可 以 一 眼看 出 这 一 行 在 做 什么 。 它 是 递减 比较 〈 因 为 $ 在 $a 之 前 ， 
也 就 是 递减 的 顺序 ) ， 而 且 是 数字 比较 〈 因 为 它 使 用 飞船 操作 符 ， 而 不 是 cmp) .。 所 以 ， 
它 代 表 以 反 向 顺序 进行 的 数字 排序 。 在 较 新 的 Perl 版 本 中 ， 这 两 种 方法 并 没有 太 明 显 的 
差别 ， 因 为 reverse 已 经 被 当成 是 sort 的 一 个 修饰 符 了 ， 在 处 理 时 会 做 特殊 优化 ， 以 避免 
多 余 的 逆序 操作 。 


按 哈 希 值 排序 
当 你 快乐 地 对 列表 排序 一 段 时 间 后 ， 就 会 碰 到 按 哈 希 值 进行 排序 的 问题 。 例 如 ， 本 书 里 
曾 出 现 过 的 三 个 主角 昨 晚 跑 去 打 保 龄 球 ， 他 们 的 积分 存储 在 下 面 的 哈 希 里 。 我 们 希望 能 
用 适当 的 顺序 将 名 字 打 印 出 来 ， 也 就 是 积分 最 高 的 人 在 最 上 面 。 所 以 我 们 需要 按 积分 来 
对 此 哈 希 排序 : 

my %SCoTre = ("barney" => 195，“"fred”=> 205， "dino"”=> 30); 

my @wjinners = SOrt by_score keys %scorej 
当然 ， 我 们 实际 上 无 法 按 积分 来 对 哈 名 排序 ， 这 只 是 口头 上 的 说 法 而 已 。 哈 希 本 身 是 没 
法 排序 的 ! 虽然 我 们 之 前 用 sozrt 对 哈 希 键 排序 ， 但 其 实 是 对 哈 希 键 的 名 称 进行 排序 〈 以 
ASCII 码 序 ) 。 现 在 我 们 仍 要 对 哈 希 键 排序 ， 但 现在 的 顺序 是 以 它们 对 应 的 哈 希 值 为 基 
准 。 在 这 个 例子 里 ， 我 们 需要 的 结果 是 : 三 个 主角 名 的 列表 ， 按 照 他 们 的 保龄球 积分 进 
行 排序 。 


这 个 排序 子 程序 相当 容易 实现 。 我 们 要 的 是 积分 的 数值 比较 ， 而 不 是 名 字 。 换 句 话说， 
我 们 不 该 比较 $a 与 $ 这 两 个 球员 名 字 ， 而 是 比较 $s core{f$aj} 与 $scorTe{f$bj}j 这 两 个 积分 。 
如 果 你 也 想到 这 点 了 ， 那 么 答案 就 呼之欲出 了 。 如 下 所 示 : 


sub by _score { $score{$bj “=> $score{$al } 


让 我 们 来 仔细 分 析 其 运作 原理 。 假 如 它 第 一 次 被 调用 时 ，Perl 把 $a 设 定 为 barney， 而 撮 
则 是 fred。 所 以 这 次 的 比较 是 $scoref "fred"]j<=>$scoref "barney"}， (参考 上 面 的 哈 
希 ) 也 就 是 205<=>195。 别 忘 了 飞船 操作 符 是 短视 的 ， 所 以 当 它 看 到 205 在 左边 ， 而 195 在 
右边 时 ， 它 就 机 械 地 说 : “不 ， 这 不 是 正确 的 数值 顺序 ，$b 应 该 在 $a 之 前 。” 所 以 它 会 
告诉 Perl，fred 应 该 在 barney 之 前 。 


接 下 来 第 二 次 调用 时 ，$a 仍 然 是 barney， 而 $b 则 变 成 了 dino。 短 视 的 飞船 操作 符 看 到 
30<=>195， 就 会 认为 顺序 是 对 的 。$a 应 该 在 则 之 前 ， 也 就 是 parney 应 该 在 dino 之 前 。 最 
终 per1 得 到 了 排序 的 结果 : fred 是 冠军 ，barney 是 亚军 ， 最 后 是 dino。 


为 什么 这 里 的 比较 将 $s core{f$b} 放 在 $s core{f$aj 之 前 ， 而 不 是 反 过 来 呢 ? 因为 我 们 想 要 
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将 积分 按 降序 排列 ， 由 分 数 最 高 者 依 序 往 下 排列 。 所 以 你 只 要 稍 加 练习 ， 就 可 以 一 眼看 
出 ; $score{$bj}<=>$scoref$a} 表 示 按 积分 降序 排列 。 


按 多 个 键 排序 
我 们 忘记 说 了 ， 昨 晚 除了 这 三 位 之 外 ， 还 有 第 四 位 玩家 ， 所 以 险 希 其 实 应 该 是 下 面 这 
样 : 
my %score =【 
"barney”=> 195， "fred”=> 205， 
"djino”=> 30， "bamm-bamm”=> 195， 

); 
现在 ， 如 你 所 见 ，bamm-bamm 和 barney 积 分 相同 。 所 以 在 排序 完成 之 后 ， 哪 一 个 应 该 排 在 
前 面 呢 ? 我 们 看 不 出 来 ， 因 为 比较 操作 符 在 比较 这 两 个 数字 时 ， 发 现 两 边 都 看 到 相同 的 
分 数 ， 就 会 返回 零 。 


也 许 这 无 关 紧 要 ， 不 过 通常 我 们 更 喜欢 明确 定义 的 排序 。 如 果 有 多 个 玩家 同 分 的 话 ， 他 
们 当然 都 应 该 排 在 一 起 ， 但 这 些 名 字 应 该 按 ASCII 码 序 排列 。 这 样 的 排序 子 程序 该 怎么 
写 呢 ? 其 实 也 很 简单 ; 


my @winners = Sort by_scotre_and_name KeyS %SCOTej 


sub by_score_and_name { 
$score{$b} 《=>》$scoref$al # 根据 分 数 降序 排列 
0 


$a cmp $b # 分 数 相同 的 再 按 名 字 的 AsCII 码 序 排列 
】 


这 里 是 怎么 运作 的 ? 喝 ， 如 果 飞 船 操作 符 看 到 两 个 不 同 的 数字 ， 那 这 就 是 我 们 想 要 的 比 
较 运 算 。 它 会 返回 - :或 而 这 两 个 都 为 真 ， 所 以 在 这 里 低 优 先 级 的 短路 操作 符 or 会 将 表 
达 式 的 其 余部 分 跳 过 ， 并 返回 我 们 所 要 的 比较 结果 〈 别 忘 了 ， 短 路 操作 符 ox 会 返回 最 后 执 
行 的 表达 式 的 结果 ) 。 但 是 ， 如 果 飞 船 操作 符 看 到 两 个 相同 的 分 数 ， 它 会 返回 0。 因 为 这 
个 值 为 假 ， 所 以 让 后 面 的 cmp 操 作 符 获 得 执行 机 会 ， 于 是 就 返回 将 哈 希 键 作为 字符 串 比 较 
的 顺序 值 。 也 就 是 说 ， 如 果 同 分 的 话 ， 就 会 按 字 符 串 顺 序 的 比较 进行 最 终 裁 决 。 


我 们 知道 ， 使 用 by score_and_name 这 个 排序 子 程序 时 ， 它 绝 不 会 返回 0 (知道 为 什么 
吗 ? 答案 在 脚注 里 ) ““ 国 。 所 以 ， 我 们 知道 排列 的 顺序 都 是 明确 定义 的 。 也 就 是 说 ， 如 





注 12: “让 其 返回 0 的 唯一 情况 是 当 两 个 字符 串 完全 相同 时 ,而 现在 处 理 的 是 哈 项 的 键 ， 我 们 早 就 
知道 它们 绝 不 会 相同 。 如 果 你 在 调用 sort 时 传 入 了 一 个 列表 ， 内 有 重复 (完全 相同 ) 的 
字符 串 ， 那 么 比较 这 些 字符 串 时 就 会 返回 0， 但 此 处 传 入 的 是 哈 希 的 键 ， 所 以 不 存在 重复 
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果 今 天 的 数据 和 明天 的 数据 都 一 样 ， 那 么 今天 和 明天 的 答案 也 会 一 样 。 


当然 ， 没有 什么 理由 限制 排序 子 程序 只 能 做 两 级 排序 。 下 面 列 出 的 程序 代码 能 对 读者 
的 ID 编号 列表 进行 五 级 排序 [#21。 这 个 例子 里 的 排序 是 根据 每 个 读者 的 未 缴 罚 金 〈 用 
&fines 子 程序 计算 ， 在 此 未 列 出 ) 、 上 且 前 他 们 借阅 的 本 数 ( 取 自 %items) 、 他 们 的 姓名 
( 先 按 姓 排 ， 后 按 名 排 ， 两 者 都 取 自 哈 希 ) ， 最 后 是 顾客 的 ID 编号 ， 以 防 前 面 的 信息 都 
相同 
@patIron IDs = Sort { 

.&fines($b) <=> 8&fines($a) :or 

$items{$b} “=> $items{$aj or 

$family_name{f$aj cmp $family_name{f$bj} or 

$personal_name{f$aj cmp $family_name{f$b} or 


$a “= $b 
} epatron_IDs; 


习题 
以 下 习题 答案 参见 第 332 页 上 的 “第 十 四 章 习题 解答 ”一 节 ， 


1， [10] 编 写 程序 ， 读 和 一连串 数字 并 将 它们 按 数值 大 小 排序 ， 将 结果 以 右 对 齐 的 格式 
输出 。 请 用 下 列 数 据 进行 测试 ; 


17 1000 04 1.50 3.14159 -10 1.5 4 2001 90210 666 


2， [15] 编 写 程序 ， 以 不 区 分 大 小 写 的 字符 顺序 把 下 列 的 哈 希 数据 按 姓 氏 排 序 后 输出 。 
当 姓 一 样 时 ， 再 按 名 排序 〈 还 是 一 样 ， 不 区 分 大 小 写 ) 。 也 就 是 说 ， 输 出 结果 中 的 
第 一 个 名 字 应 该 是 Fred 的 ， 最 后 一 个 应 该 是 Betty 的 。 所 有 姓 相 同 的 人 应 该 要 排 在 
一 起 。 千 万 别 更 改 原 始 数据 。 这 些 名 字 应 该 以 它们 原本 的 大 小 写 形式 显示 : 


my %1ast_name = qw{ 
fred flintstone Wilma Flintstone Barney Rubbjle 
betty xubble Bamm-Bamm Rubble PEBBLES FLINTSTONE 
] 


3， [15] 编 写 程序 ， 在 输入 字符 串 中 找 出 指定 子 字符 串 出 现 的 位 置 并 将 其 输出 。 例如 ， 
输入 字符 串 为 "Thisisatest."， 而 子 字符 串 是 "is"， 则 程序 应 该 会 汇报 位 置 2 和 5 
如 果子 字符 串 是 "a"， 程 序 应 该 会 汇报 8， 如 果子 字符 串 是 "t"， 程 序 将 汇报 什么 ? 


注 13: 虽然 在 史前 时 代 很 不 寻常 ， 但 在 现代 社会 里 ， 确 实 有 可 能 需要 进行 五 级 以 上 的 排序 。 
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第 十 五 章 
智能 匹配 与 given-when 结 构 





要 是 计算 机 自己 就 能 弄 明白 我 们 想 要 做 的 事 并 做 完 它 ， 那 该 有 多 好 啊 ! Perl 已 经 尽力 去 
这 么 做 了 ， 在 你 想 要 数字 的 时 候 给 你 数字 ， 想 要 字符 串 的 时 候 给 你 字符 串 ， 想 要 单个 值 
的 时 候 给 你 单个 值 ， 想 要 列表 的 时 候 给 你 列表 。 加 上 现在 Perl 5.10 提 供 的 智能 匹配 操作 
符 和 given-when 控 制 结构 ， 就 更 完美 了 。 


智能 匹配 是 从 Perl 5.10.0 开 始 出 现 的 ， 当 时 还 存在 一 些 问题 。 不 过 到 了 Perl 5.10.1， 绝 大 
多 数 的 bug 都 得 到 了 修正 ， 所 以 也 不 算 什 么 大 问题 。 (这 意味 着 也 许 你 需要 为 本 章 更 更 
新 一 下 你 的 Perl 版 本 。) 所 以 ， 如 果 你 仍然 在 用 Perl 5.10.0， 就 不 要 考虑 使 用 智能 匹配 
了 ， 和 否则 随后 可 能 会 招致 意外 。 因 此 ， 本 章 我 们 会 改 用 更 为 准确 的 基础 版 本 号 ， 提 醒 你 
使 用 较 新 的 Perl 版 本 ， 


Use 5.010001; # 至 少 是 5.10.1 版 


智能 匹配 操作 符 


智能 匹配 操作 符 ~* 会 根据 两 边 的 操作 数 的 数据 类 型 自动 判断 该 用 何 种 方式 进行 比较 或 匹 
配 。 如 果 两 边 的 操作 数 看 起 来 都 像 数 字 ， 就 按 数值 来 比较 大 小 ;如 果 看 起 来 像 字符 串 ， 
就 按 字 符 串 方式 比较 ， 如 果 某 一 端 操作 数 是 正则 表达 式 ， 那 就 当 作 模式 匹 配 来 执行 。 它 
还 能 完成 许多 复杂 任务 ， 如 果 换 成 功能 相同 的 传统 写 关 ， 多 半 会 是 一 大 堆 元 繁 代码 。 所 
以 有 了 它 ， 我 们 可 以 省 下 不 少 力气 。 


这 个 ”看 起 来 和 第 八 章 介绍 过 的 绑 定 操作 符 =* 非 常 相近 。 不 过 ~* 更 能 干 些 。 有 时 候 ， 它 
甚至 就 能 取代 绑 定 操作 符 。 之 前 ， 你 已 经 学 会 使 用 绑 定 操作 符 关 联 $name 和 正则 表达 式 来 
匹配 模式 : 
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Print "I found Fred in the namelMn"” if $namne =” /Fred/; 
现在 ， 用 智能 匹配 操作 符 代 蔡 绑 定 操作 符 也 能 完成 同样 的 任务 ， 
Use 5.010001; 


say “I found Fred in the namel” if $name “” /Fred/; 


智能 匹配 操作 符 看 到 左 侧 有 个 标量 ， 右 侧 有 个 正则 表达 式 ， 于 是 它 自己 推断 出 应 该 执行 
模式 匹配 操作 。 不 算 惊 天 动 地 ， 但 已 经 有 了 长 足 进步 。 


在 处 理 更 复杂 的 情况 时 ， 智 能 匹配 操作 符 才 会 大 显 身手 。 比 方 说 ， 你 想 在 哈 希 %names 中 
查找 任何 匹配 Fred 的 键 ， 如 果 找 到 就 打印 一 条 消息 出 来 。 你 无 法 用 exists 判 定 ， 因 为 它 
需要 给 定 确切 的 键 。 当 然 ， 你 可 以 用 foreach 遍 历 每 个 键 ， 尝 试用 正则 表达 式 匹 配 ， 跳 过 
那些 不 匹配 的 ， 直 到 发 现 要 找 的 键 ， 保 存 到 变量 $flag 中 ， 然 后 用 1ast 跳 出 循环 : 
my $flag = 0; 
foreach my $key 《〈 keys %names ) { 
next Unless $key =>” /Fredy/; 
$f1a8g = $key; 


1ast; 
】} 


print "TI found a key matching “Fred' 。It was $flag\n” jif $flagj 


哺 ! 这 么 麻烦 ， 连 解释 起 来 都 很 费力 。 不 过 这 么 写 也 有 好 处 ， 就 是 兼容 各 种 Perl 5 版 本 。 
可 有 了 智能 匹配 操作 符 ， 只 要 把 哈 希 写 在 左 侧 ， 把 正则 表达 式 写 在 右 侧 ， 就 搞定 了 : 


use 5.010001; 


Say “I found a key matching “Fred ”jif %names ~ /Fred/; 


之 所 以 智能 匹配 操作 符 知道 该 怎么 做 ， 是 因为 它 看 到 了 一 个 哈 希 和 一 个 正则 表达 式 。 遇 
到 这 两 种 操作 数 时 ， 智 能 匹配 操作 符 就 知道 该 遍历 names 的 所 有 链 ， 用 给 定 的 正则 表达 
式 逐 个 测试 。 如 果 找到 匹配 的 那个 键 ， 它 就 知道 该 停 下 来 了 并 立即 返回 真 。 这 里 的 匹配 
和 对 标量 的 匹配 不 太一 样 。 它 很 聪明 ， 能 因地制宜 ， 知 道 怎 么 做 才 是 正确 的 。 并 且 它 集 
数 种 不 同 的 操作 于 一 身 ， 仅 仅 一 个 操作 符 就 能 解决 各 式 各 样 的 问题 。 

那么 ， 你 该 如 何 判断 它 是 怎么 工作 的 昵 ? 在 perlsyx 文 档 中 有 一 张 表 ， 列 出 了 两 边 出 现 
不 同类 型 的 操作 数 时 会 采取 何 种 匹配 行为 。 我 们 现在 这 个 例子 中 ， 左 边 还 是 右边 出 现 正 
则 表达 式 或 哈 希 都 无 关 紧 要 ， 因 为 那 张 智 能 匹配 工作 表 告 诉 我 们 ， 无 论 这 两 者 的 顺序 先 
后 ， 其 匹配 行为 都 是 一 样 的 。 所 以 ， 你 也 可 以 倒 过 来 写 :， 

Use 5.010001; 


Say "I found a key matching “Fred' ”if /Fred/ ~>~ %namesj 
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如 果 想 要 比较 两 个 数组 (为 简单 起 见 ， 斩 时 只 考虑 相同 长 度数 组 之 间 的 比较 ) ， 可 以 接 
数组 索引 依次 遍历 ， 取 出 相同 位 置 的 两 个 元 素来 比较 。 如 果 比 较 下 来 两 者 相等 ， 则 令 计 
数 器 $equal 自 增 1。 循 环 结束 后 ， 如 果 $equal 的 数字 和 数组 @names1 的 长 度 一 致 ， 就 说 明 
这 两 个 数组 是 完全 相同 的 : 
my $equal = 0; 
foreach my $index ( 0 .4$#names1 ) 
1ast unless $names1[$index] eq $names2[$index]; 


$equal++; 


】 


pTint "The arIays have the same elementsiNn" 
if $equal == @names1; 
还 是 要 说 ， 这 么 做 太 麻烦 了 。 就 不 能 有 更 轻松 一 点 的 实现 方法 吗 ? 等 等 ! 智能 匹配 操作 
符 如 何 ? 直接 把 两 个 数组 放 在 ~* 的 两 端 。 单 单 下 面 这 点 代码 就 做 了 和 上 面 一 样 的 事情 ， 
而 且 看 起 来 几乎 没什么 要 写 的 代码 : 


Use 5.010001; 


say“The arrays have the same elements!"”. 
计 @names1 ~ ~ @name5s2; 
好 吧 ， 再 来 看 一 个 例子 。 假 设 在 调用 了 某 个 函数 之 后 ,. 你 想 要 检查 它 的 返回 值 是 否 在 某 
个 可 能 或 预期 值 集 合 中 。 回 想 第 四 章 中 介绍 的 max() 子 程序 ， 你 已 经 知道 nax() 将 会 返回 
传 给 它 的 值 中 最 大 的 那个 。 你 可 以 将 max 的 返回 值 和 传 给 它 的 参数 列表 作 比 较 ， 还 是 用 之 
前 的 那 种 老式 笨拙 的 写法 : 


my @nums = qw(1232742); 
my $result = max( enums ); 


my $flag = 0; 

foreach my $num〈( @nums ) { 
next unless $Tresult == $num; 
$flag = 13 
1ast; 

】} 


print “The result is one of the input values\n” jif $flag; 


你 已 经 知道 我 们 会 怎么 说 : 这 人 么 做 太 麻 烦 啦 ! 把 中 间 那 些 代 码 都 扔 掉 吧 ， 改 用 ~“ 好 了 。 
这 就 容易 多 了 : 
,Use 5.010001; 


my @nums = quw(1232742 ); 
my $result = max( @nums ); 
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say“The Tesult [$result] is one of the 让 values (@nums)” 


if @nums ~~ $7result; 


智能 匹配 对 两 边 操作 数 的 顺序 一 般 没 有 要 求 ， 倒 过 来 写 也 行 。 对 这 里 的 例子 中 两 边 的 数 
据 类 型 来 说 ， 智 能 匹配 操作 符 不 关心 谁 在 哪 一 边 ， 


Use 5.010001; 


my @nums = quw(1232742); 
my 4$result = max( @nums ); 


Say "The result [$result] is one of the input values (@nums)" 


if $result ~” @nums; 


智能 匹配 操作 的 优先 级 


现在 你 已 经 看 到 了 ， 智 能 匹配 操作 符 是 如 此 简洁 灵巧 。 如 果 还 需要 进一步 了 解 各 种 情况 
下 它 会 如 何 工 作 ， 请 仔细 查看 perlsym 文 档 中 “Smart matching in detail” 部 分 的 表格 。 下 


面 的 表 1S-1 列 出 了 一 部 分 。 


表 15-1: 智能 匹配 操作 符 对 不 问 昌 作 数 的 处 理 


范例 
%a ~” 和 ‰ 

%a >” @b 或 6a ~ >” 和 

%a > /Fred/ 或 /Fred/ ~” ‰%p 
"Fred” >” %a 

6@a > >” @b 

6@a ~” /Fred/ 

$name >” undef  $name 
$name >“” /Fred/ 

123 “~ ”123.0” 


Fred 


Fred” ~ 


]23 ”>” 456 


匹配 类 型 
”了 哈 希 的 键 是 否 一 致 


%a 中 的 至 少 一 个 键 在 列表 @b 中 

至 少 有 一 个 键 匹 配给 定 的 模式 

是 否 存在 $a{Fred} 

数组 是 否 相同 

6@a 中 至 少 有 一 个 元 素 匹 配 模式 
4name 没 有 定义 

模式 匹配 

数值 和 “numish” 类 型 的 字符 串 是 否 相等 
字符 串 是 否 相同 

数值 是 否 相 等 





当 使 用 智能 匹配 操作 符 时 ，Perl 会 按 此 表 自 上 而 下 查看 适用 的 操作 数 配对 。 先 找到 哪 一 
种 搭配 就 选择 哪 一 种 操作 。 操 作 数 的 顺序 偶尔 会 有 区 别 。 假 如 你 有 一 个 数组 和 一 个 哈 希 


要 进行 智能 匹配 : 


Use 5.010001; 
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i 计 ( @array ~” %hash ) { ...， } 


Per] 先 去 找 对 应 于 一 个 数组 和 一 个 哈 希 的 匹配 类 型 ， 结 果 是 要 求 earray 中 至 少 有 一 个 元 
素 是 哈 希 %hash 的 键 。 这 很 容易 ， 因 为 对 于 这 两 种 操作 数 类 型 ， 只 有 一 种 匹配 类 型 。 


智能 匹配 操作 符 并 非 始终 符合 交换 律 。 说 起 交换 律 ， 你 可 能 会 想起 高 中 代数 中 的 术语 ， 
它 的 意思 是 操作 数 的 顺序 无 关 ， 斯 倒 后 的 计算 结果 仍然 一 样 。 智 能 匹配 有 时 不 满足 交换 
律 ， 当 看 到 左 侧 是 数字 时 ， 就 会 按照 数值 方式 进行 比较 ， 看 到 左 侧 是 字符 串 时 ， 就 会 按 
照 字符 串 方 式 进行 比较 。 所 以 同样 的 两 个 数字 和 字符 串 ， 按 不 同 顺 序 做 智能 匹配 ， 得 到 
的 结果 是 不 同 的 ， 关 键 还 是 看 它 第 一 个 拿 到 的 操作 数 的 类 型 ， 也 就 是 左 侧 数据 : 


Use 5.010001; 


Say “match number >” string”jif 4 >” :4abc'; 
Say “match string ~~ numbez”ji “4abc” ”> 4; 


执行 后 只 有 一 个 智能 匹配 有 输出 : 
match string > numbez 


虽然 第 一 个 智能 匹配 的 左 侧 是 数字 类 型 ， 但 它 实 际 上 却 是 字符 串 比 较 。 在 优先 级 表 中 ， 
瞧 一 一 条 左 侧 是 数字 类 型 操作 数 的 ， 右 侧 期 望 的 是 看 起 来 像 数 字 的 字符 串 (numish ) 
类 型 操作 数 。 而 这 里 的 4abc 对 Perl 来 说 并 不 足以 判 为 这 种 numish 类 型 。 所 以 不 符合 左 侧 
-数字 右 侧 numish 类 型 的 条 目 ， 于 是 智能 匹配 操作 符 顺 势 往 下 ， 一 直到 最 后 一 条 “Any” 
对 “Any” 的 条 目 ， 而 该 条 目 是 按照 字符 串 方式 进行 比较 ， 显 然 两 者 并 不 匹配 ， 没 有 输 
出 。 1 


第 二 个 智能 匹配 是 按照 数字 方式 比较 。 它 的 左 侧 是 “Any” 类 型 而 右 侧 是 “Num” 类 
型 ， 这 个 条 目的 优先 级 要 比 第 一 个 智能 匹配 所 用 的 条 目 高 上 好 几 级 。 它 按照 数值 方式 比 
较 ， 左 侧 字符 串 自动 转换 为 数字 后 和 右 侧 相等 ， 所 以 两 者 匹配 ， 打 印 输出 。 
那么 ， 如 果 有 两 个 标量 变量 的 话 ， 该 如 何 匹配 昵 ? 

Use 5.010001; 

j ( 4$fred >>” $barney ) { ..， } 
就 目前 而 言 ，Perl 还 无 法 判断 该 用 何 种 匹配 方式 ， 它 需要 知道 标量 变量 $fred 和 4$barney 


里 面 的 数据 到 底 是 什么 类 型 。Perl 无 法 预先 判断 ， 要 一 直 等 到 取得 具体 数据 为 止 。 这 里 
的 智能 匹配 究竟 是 按 数 值 方式 比较 还 是 按 字符 串 方式 比较 ? 我 们 现在 还 无 从 知晓 。 
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given 语 名 
given-when 控 制 结构 能 够 根据 given 后 面 的 参数 执行 某 个 条 件 对 应 的 语句 块 。 这 是 Perl 用 
来 应 对 C 语 言 的 switch 语 名 的 等 效 物 ， 只 不 过 更 具 Per 色彩， 所 以 更 时 尚 ， 名 字 也 更 新 潮 


些 


下 面 这 段 代 码 从 命令 行 取 第 一 个 参数 ，4ARGV[o]， 然 后 依次 走 一 遍 when 条 件 测 试 ， 看 看 
是 否 可 以 找到 Fred。 每 个 When 语句 块 都 对 应 于 不 同 的 处 理 方式 ， 我 们 从 最 宽松 的 条 件 开 
始 ， 测 试 并 报告 Fred 出 现 的 情况 : 


Use 5.010001; 


given ( $ARGV[ol ) { 
when (Fred ) { say 'Name is Fred' } 
when ( /fred/ ) { say “Name has fred in it } 
When ( /NAFred/ ) { say “Name starts with Fred” } 
default { say "I don't see a Fred" 了 

】} 


有 能 匹配 对 $_ 作 测试 。 当 然 为 了 概 
念 清晰 ， 你 可 以 用 显 式 智能 匹配 的 方式 改写 上 面 的 例子 


use 5.010001; 


given( $ARGV[o] ) 攻 
when ( $_ “~ “Fred' .) { say "Name is Fred' } 
when ( $_ >>~ /\AFred/ ) { Say “Name starts with Fred' } 
when ( $_ >” /fred/i ) { say Name has fred in 让  } 
defau]t { say "IT don't see a Fred"” } 

】 


如 果 $_ 不 能 满足 任何 一 个 when 条 件 ，Perl 就 会 执行 default 语 句 块 。 下 面 是 若干 次 运行 后 
的 输出 结果 ， 


$ pex15.10.1 Switch.p1 Fred 

Name is Fred 

$ Per15.10.1'switch.pl Frederick 
Name starts with Fred 

$ perl5.10.1 Switch.p1 Barney 

I don't see 3 Fred 

$ per15.10.1 Switch.p1 Alfred 
Name has fred in 让 tt 


你 可 能 会 说 ，“ 不 稀奇 ， 我 可 以 用 if-elsif-else 来 写 这 个 例子 。” 接 下 来 的 例子 正 古 用 


注 1: 按 Perl 的 术语 来 说 ，given 是 一 个 主题 符 (iopicalizer) ， 因 为 它 能 使 后 面 的 参数 成 为 主题 
(topic) ， 而 它 是 Perl 6 当中 给 $ 起 的 时 尚 新 名 字 。 
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这 种 方式 写 的 ， 人 ， 这 是 Perl 5.10 里 面 my 的 
新 用 法 [性 21 ， 


use 5.010001; 


{ 
my $_ = $ARGV[o]; # 从 per1l 5.10 开始 ，$_ 可 以 声明 为 词法 变量 了 ! 


if ($ ~ ~ Fred ). {say 'Name is Fred' } 
elsif ( $_ ~” /AAAFred/ ) { say 'Name starts.with Fred' } 
elsif ( $_ ~>” /fred/i ) { say Name has fred in it } 
else { say "I don't see a Fred”} 


】} 
如 果 given 能 做 的 和 if-elsif-else 完 全 一 样 的 话 ， 它 就 没 必 要 存在 了 。 和 if-elsif-else 
不 同 ，given-when 可 以 在 满足 某 个 条 件 的 基础 上 继续 测试 其 他 条 件 ， 而 if-elsif-else 一 
且 满 足 了 某 个 条 件 ， 就 只 能 执行 对 应 的 那个 语句 块 。 


在 继续 深入 之 前 ， 还 是 来 看 看 显 式 写法 的 例子 ， 搞 清楚 究竟 发 生 了 些 什么。 除非 明确 
指定 ， 否 则 在 when 语 句 块 后 面 都 好 像 有 一 名 break， 它 告诉 Perl 现 在 就 跳出 given-when 
结构 ， 继 而 执行 后 面 的 程序 。 之 前 的 例子 真 好 像 带 有 break 似 的 ， 尽 管 不 需要 你 自己 输 
人 和: 


USe 5.010001; 


given ( $ARGV[o] ) 《 
when ( $_ ”> Fred ) {say Name is Fred' ; break } 
when ( $_ >” /fred/i ) { say Name has fred in it'; break } 
when ( $_ ”~>~ /人 \AFrzed/ ) { say“ Name starts with Fred'; break } 
defaujlt { say "TI don't see a Fred"; break } 

】} 


这 种 写法 用 在 以 上 的 例子 中 并 不 太 合适 。 因 为 我 们 是 按 从 宽泛 到 特殊 的 顺序 来 测试 的 。 
如 果 传 来 的 参数 匹配 /fred/i，Perl 就 不 会 测试 其 余 的 when 条 件 了 。 同 样 的 道理 ， 我 们 
不 能 一 开始 就 测试 是 否 包含 Fred， 因 为 这 样 就 总 没有 机 会 做 后 面 的 测试 ， 执 行 到 第 一 个 
when 语 句 块 后 Perl 就 会 跳出 该 控制 结构 。 


如 果 在 when 语 多 块 的 末尾 使 用 continue，Perl 就 会 尝试 执行 后 续 的 when 语 名 了 。 这 就 

是 if-elsif-else 力 不 能 及 的 地 方 。 当 另 一 个 when 的 条 件 满 足 时 ，Per]l 会 执行 对 应 语句 

块 〈 同 样 ， 默 认 退 出 整个 控制 结构 ， 除 非 你 写 清楚 ) 。 在 每 个 when 语 句 块 的 末尾 写 上 

continue， 就 意味 着 所 有 的 条 件 测 试 都 会 执行 

注 2: Perl 的 特殊 变量 都 是 全 局 变量 ， 这 一 点 我 们 之 前 在 第 四 事 提 过 。 但 $ 变量 太 受 欢迎 了 ， 所 
以 Perl 5.10 开 始 允 许 我 们 将 它 变 为 词法 变量 。 这 样 一 来 ， 在 你 指定 的 语 身 块 内 部 ， 默 认 会 
用 到 $ 的 内 置 函 数 或 操作 符 就 不 会 受 外 部 数据 的 影响 了 。 
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use 5.010001; 


given ( $ARGV[o] ) { 
when ( $_ ~~“ Fred ) {say 
when ( $_ ~> /fred/i ) { say 
when ( $_ ~ >” /ANAFred/ ) { say 
default { say 


还 有 一 个 小 问题 。 我 们 注意 到 default 块 总 是 会 


$ per15.10.1 switch.p1 ALfred 
Name' has fred in 让 t 
I don't see a Fred 


"Name is Fred'; continue } # 精 糕 ! 
:Name has fred jn it 让"; continue } 
"Name starts With Fred'; continue } 


"IT don't see a Fred" } 


运行 


default 块 就 相当 于 一 个 测试 条 件 永远 为 真 的 when 语 句 。 如 果 在 default 之 前 的 when 语 名 
使 用 了 continue，pPezr1 就 会 继续 执行 default 语 句 。 所 以 本 质 上 ，default 就 是 另 一 个 


when : 


Use 5.010001; 


given ( $ARGV[0] ) { 
when ( $_ ~ >” Fred ) 1{ say 
when ( $_ ~” /AAAFred/ ) { say 
when ( $_ > /fred/i ) { say 
when ( 1 == 1 ) { say 
】} 


要 解决 这 个 问题 ， 只 要 拿 掉 最 后 


USe 5.010001; 


given ( $ARGV[o] ) { 
when ( $_ >~~ “Fred” ) { say 
when ( $_ ~” /AAAFred/ ) { say 
when ( $_ >” /fred/i ) { say 
when ( 1 == 1 ) { say 
】} 


"Name is Fred'; continue } 

"Name starts with Fred'; continue } 

:Name has fred in it'; continue } # 粳 糕 ! 
"TI don't see a Fred”} # 相当 于 default 语 名 


一 个 的 continue， 这 样 最 后 一 个 when 就 会 停止 进程 : 


"Name :is Fred'; continue } 

“Name starts with Fred'; continue } 
“Name has fred in it } ## 现在 好 了 ! 
"T don't see a Fred"”} 


现在 我 们 已 经 者 交代 清楚 了 ， 下 面 再 用 常规 写法 改写 ， 以 后 你 也 可 以 将 这 种 形式 用 到 实 


际 的 程序 中 : 
Use 5.010001; 


given 〈 4$ARGV[0] ) 工 
when (Fred' ) 1{ say 
when 〈( /\AFred/ ) { say 
when (〈( /fred/i ) { say 
default { say 


"Name 
“Name 
"Name 
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is Fred'; continue } 
starts With Fred'; continue } 
has fred in it'; } 


"TI don't see a Fred"” } 


笨拙 匹配 


除了 在 given-when 中 使 用 智能 匹配 外 ， 还 可 以 像 以 前 那样 使 用 所 谓 的 “ 策 拙 (dumb) ” 
匹配 。 当 然 ， 这 并 不 是 真 的 说 它 笨拙 ， 我 们 指 的 是 你 之 前 已 经 掌握 的 正则 表达 式 匹 配方 
式 。Perl 只 要 看 到 明确 书写 的 比较 操作 符 (不 管 哪 种 类 型 ) 或 是 绑 定 操作 符 ， 它 就 会 按 
这 些 操作 符 的 要 求 去 做 ， 


Use 5.010001; 


given ( $ARGV[o] ) 
when 〈( $ eq“Fred” ) { say 'Name is Fred';j continue } 
” When (〈 $_ =>” /\AFred/ ) { say “Name starts With Fred'; continue } 
when 〈( $_ => /fred/i ) { say "Name has fred in 让 t'; 】} 
defauIt { say "TI don't see 3a Fred"” 1} 
】 


你 甚至 可 以 混用 笨拙 匹配 和 智能 匹配， 每 个 when 表 达 式 都 会 各 自 处 理 不 同类 型 的 匹配 方 


use 5.010001; 


given (〈 $ARGV[0] ) { 
when ( "Fred' ) { # 智能 匹配 
say "Name is Fred'; continue } 
when ( $_ =>” /NAAFred/ ) { # 笨拙 匹配 
say "Name Starts with Fred'; continue } 


when 〈 /fred/i ) { # 智能 匹配 
say “Name has fred jin it'; 】} 
defau]lt { say "I don't See a Fred”} 


注意 繁 抽 和 智能 这 两 种 匹配 方式 并 非 弃 油分 明 ， 因 为 正则 表达 式 的 匹配 操作 符 默 认 也 是 
用 $ 来 作 测 试 的 。 


智能 匹配 操作 符 用 于 判断 事物 是 否 相同 〈 或 者 差不多 是 相同 ) ， 所 以 在 需要 比较 大 小 
时 ， 就 不 能 用 智能 匹配 了 。 此 时 还 是 直接 用 传统 的 比较 操作 符 好 了 : 


Use 5.010001; 


given ( $ARGV[o] ) f 
when 〈 ! /ANA-?\d+\vXd+tvz/ ) { # 策 抽 匹 配 
say “Not a number!”} 
when ($ >410) { # 笨拙 匹配 
say “Number is greater than 10” } 
when ($ “310) { # 策 拙 匹配 
say “Number is less than 10” } 
default { say “Number is 10” } 
】} 
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某 些 特定 情况 下 ，Per] 会 自动 使 用 笔 拙 匹配 方式 。 若 在 when 里 调用 某 个 子 程序 [入 3] ， 
Per 会 根据 返回 值 的 真 假 作 判 断 ; 


Use 5.010001; 


given ( $ARGV[0] ) { 
when ( name_has_fred( $_ ) ) { # 笨 抽 匹 配 
say 'Name has fred in it'; continue } 


】 


同样 的 规则 还 适用 于 Perl 的 内 置 函 数 ， 比 如 defined、exists 和 eof， 因 为 这 些 函 数 本 来 
就 是 要 返回 真 假 值 的 。 


”否定 的 表达 式 ， 包 括 否定 的 正则 表达 式 ， 都 不 会 使 用 智能 匹配 方式 。 下 面 的 例子 和 你 从 
上 一 章 看 到 的 类 似 ， 


use 5.010001; 


given( $ARGV[o] ) 
when( ! $boolean ) { # 繁 拙 丐 配 
say “Name has fred in 让 】} 
when( !1 /fred/i ) { # 笨拙 匹配 
Say “Does not match Fred”} 


多 个 条 目的 when 匹 配 


有 时 候 需 要 人 遍 历 许多 条 目 ， 可 given 只 能 一 次 接受 一 个 参数 。 当 然 你 可 以 将 given 放 到 
foreach 里 面 循 环 测试 。 比 如 ， 要 遍历 enames， 可 以 依次 将 当前 元 素 赋 值 到 $name， 然 后 
再 用 given: 

use 5.010001; 


foreach my $name ( @names ) { 
given( $name ) { 


】} 


猜 我 想 说 啥 ? 没 错 ， 这 么 写 太 鹃 嗪 了 。 难 道 你 还 设 厌倦 这 种 额外 多 出 来 的 工作 么 ? 这 
, 回 ， 直 接 用 @names 中 当前 元 素 的 别名 好 了 ， 让 given 直 接 用 这 个 别名 的 别名 作为 参数 。 
Perl 就 该 这 样 聪明 ! 别 担心 ， 它 实际 上 就 是 这 样 聪明 。 


注 3: 了 Perl 对 方法 调用 也 不 会 使 用 智能 匹配 ， 不 过 面向 对 象 编程 的 内 容 在 《Intermediate Perl》 
一 书 中 另 有 介绍 。 
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要 遍历 多 个 元 素 ， 可 以 直接 省 略 given， 让 foreach 将 当前 正在 遍历 的 元 素 放 入 它 自 己 的 
$ 里。 因为 接 下 来 我 们 要 用 智能 匹配 ， 所 以 当前 元 素 就 只 能 是 放 在 $ 里 面 : 


Use 5.010001; 


foreach ( @names ) { # 不 要 使 用 具名 控制 变量 ! 

when ( /fred/i ) { say“Name has fred in 让 '; continue } 
when ( /\AFred/ ) { say“Name Starts with Fred'; continue } 
When (“Fred'” ) { say "Name is Fred'; } 

default { say "IT don't see a Fred"”} 

} 

如 果 要 电 历 多 个 元 素 的 名 称 ， 我 们 总 希望 可 以 看 到 当前 遍历 到 的 元 素 的 名 称 。 可 以 在 


foreach 语 句 块 中 写 上 共 他 语句 ， 比 如 say， 
use 5.010001; 


foreach ( 6@names ) { # 不 要 使 用 具名 控制 变量 ! 


say“\nPxrocessjing $“; 


When 《 /fred/i ) { say“ Name has fred jin it'; continue } 
when ( /AAAFred/ ) { say “'Name starts With Fred'; continue } 
when 〈(“Fred' ) {say 'Name is Fred'; } 
default ” ({say "TITdon't see a Fred"” } 
】} 
你 甚至 还 可 以 在 若干 hen 语 名 之 间 写 上 其 他 语句 ， 比 方 说 ， 在 default 之 前 加 上 一 条 输出 


调试 信息 的 语句 (在 given 结 构 里 也 可 以 这 么 用 哦 ) ， 
Use 5.010001; 


foreach ( @names ) { # 不 要 使 用 具名 控制 变量 ! 


say “nprocessjing $“”; 

when ( /fred/i ) { say “Name has fred in 让 '; continue } 
when ( /\AFred/ ) { say “Name statts with Fred'; continue } 
when ( “Fred” ) { say "Name is Fred'; } 

say “Moving on to default...; 

default { say "I don't see a Fred”} 


习题 
以 下 习题 答案 参见 第 335 页 上 “第 十 五 章 习 题解 答 ” 一 节 : 


1. [15] 重 写 第 十 章 中 的 第 一 道 习题 ， 也 就 是 猜 数字 的 那 顾 ， 使 用 given 结 构 来 实现 
想 想 看 该 如 何 处 理 非 数 值 的 输入 ? 这 里 不 需要 用 智能 匹配 。 
2. [15] 用 given-when 结 构 写 一 个 程序 ， 根据 输入 的 数字 ， 如 果 它 能 被 3 整除 ， 就 打 
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印 “Fizz”;， 如 果 它 能 被 5 整除 ， 就 打印 “Bin”;， 如 果 它 能 被 7 整除 ， 就 打印 
“Sausage”。 比 如 输入 数字 15， 程 序 该 打印 “Fizz” 和 “Bin”， 因 为 15 可 以 同时 
被 3 和 5 整除 。 思 考 一 下 ， 可 以 让 程序 输出 “Rizz Bin Sausage” 的 最 小 数字 该 是 多 
少 ? 

3 f15] 用 for-when 写 个 程序 ， 要 求 从 命令 行 遍历 某 个 目录 下 的 文件 列表 ， 并 报告 每 个 
文件 是 否 可 读 、 可 写 或 可 执行 。 不 需要 使 用 智能 匹配 。 

4. [20] 使 用 given 和 智能 匹配 写 个 程序 ， 从 命令 行 得 到 一 个 数字 ， 打 印 出 这 个 数字 除 
了 1 和 它 本 身 以 外 的 因数 。 比 如 输入 99， 你 写 的 程序 该 报告 3、9、11 和 33 这 4 个 数 。 
如 果 输 入 的 数字 就 是 一 个 质数 ， 程 序 要 报告 说 明 这 是 质数 。 如 果 输 入 的 不 是 数字 ， 
也 应 该 报告 说 明 输 入 有 误 ， 不 会 继续 计算 。 虽 然 可 以 用 if 结构 和 笨拙 匹配 来 实现 ， 
不 过 作为 练习 ， 这 里 请 只 用 智能 匹配 来 实现 。 
作为 开始 ， 下 面 给 出 一 段 返回 质数 的 子 程序 供 你 使 用 。 它 会 尝试 从 2 到 输入 数字 
$number 的 一 半 范 围 内 的 数字 ， 看 哪些 可 以 被 整除 ， 


Sub divisors { 
my $number = Shift; 


my @divisors =〈); 
foreach my $divisor ( 2 ..( $number/2 ) ) { 

push @divisors，$divisor unless $number % $divisorj 
} 人 


Teturn @divisors; 


】 


5 [20] 修 改 上 题 程 序 ， 报 告 输入 数字 的 奇偶 情况 ， 是 否 是 质数 〈 除 1 和 本 身 外 没有 其 
他 可 整除 的 数 ) ， 是 否 可 以 被 某 个 你 最 喜欢 的 数字 整除 。 还 是 只 能 用 智能 匹配 实 
现 。 
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第 十 六 章 


进程 管理 





身 为 程序 员 最 棒 的 一 面 ， 就 是 能 运行 别人 的 程序 ， 不 必 自 己 动手 去 号。 现在， 我 们 来 学 
习 一 下 如 何 从 Per 直接 运行 其 他 程序 并 由 此 学 习 如 何 管理 这 些 孩子 [ 往 ] 。 

在 Perl 里 有 名 话 : “办 法 不 止 一 种 ”， 这 里 也 是 如 此 的 。 这 些 办 法 可 能 有 许多 重 登 或 差 
异 之 处 并 且 有 各 自 的 特色 。 如 果 你 不 喜欢 头 一 种 方法 ， 大 可 往 下 读 个 一 两 页 ， 找 到 比较 
合 胃 口 的 方式 。 


Perl 的 可 移植 性 非常 高 。 本 书 的 其 他 章节 大 都 不 需要 用 脚注 来 说 明 某 个 程序 在 Unix 上 是 
这 样 ， 在 Windows 上 是 那样 ， 而 在 VMS 又 是 另外 一 种 情况 。 但 当 你 想 在 自己 的 计算 机 上 
人 请 注意 : 在 Macintosh 上 能 找到 的 程序 与 老式 的 Cray (曾经 是 “ 超 

级 ”计算 机 ) 上 的 多 半 大 不 相同 。 本 章 的 例子 将 以 Unix 环 谤 为 主 ， 如 果 你 使 用 的 不 是 
Unix 系 统 ， 难 免 会 磁 到 一 些 差 异 。 


system 函 数 


在 Perl 中 ， 启 动 子 进程 最 简单 的 方法 是 用 system 国 数 。 比 如 要 从 Perl 调 用 Unix 的 date 命 
令 ， 需 要 告诉 system 要 运行 的 外 部 程序 的 名 字 


System “date '; 
你 所 运行 的 Perl 程 序 称 为 父 《parent) 进程 ， 当 它 运 行 时 ，system 命 令 根据 当前 的 父 进程 
创建 一 份 挝 贝 ， 这 份 拷贝 称 为 子 (cpnilad) 进程 。 子 进程 会 立即 切换 到 要 运行 的 外 部 命令 
上 ， 比 如 这 里 的 date， 它 继承 了 原来 进程 中 Perl 的 标准 输入 、 标 准 输出 以 及 标准 错误 。 也 
注 1; 实际 上 是 新 生 的 子 进程 。 
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就 是 说 ， 由 外 部 命令 date 输 出 的 日 期 与 时 间 字 符 串 会 立即 传送 到 当前 Perl 程 序 的 STDoUT 和 句 
柄 所 指向 的 地 方 。 


通常 提供 给 system 函 数 的 参数 就 是 那些 一 般 在 shell 中 键 和 人 的 命令 。 所 以 当 你 想 用 1s- 
MEOME 之 类 比较 复杂 的 命令 时 ， 只 要 把 它 全 部 放 进 参数 里 就 行 了 ; 


System "1s -1 $HOME ; 


5 因为 这 里 的 $HOME 是 shell 的 环境 变量 ， 所 以 用 的 不 是 双 引 号 ， 而 是 单 引 号 。 否 
， 国 为 美元 符号 同时 也 是 通知 Perl 的 标量 符号 ， 所 以 放 在 双 引 号 内 会 进行 和 变量 内 插 ， 
ee 是 这 个 环境 变量 名 了 。 除 此 之 外 ， 我 们 还 可 以 这 么 写 : 


System "1s -1 \$HOME"; 
但 这 样 写 很 快 就 会 乱 成 一 团 。 


目前 date 命 令 只 是 输出 结果 而 已 。 现 在 假设 它 成 了 比较 健谈 的 命令 ; 会 先 间 “你 想 知 
道 娜 个 时 区 的 时 间 ? ” [六 3 这 个 询问 信息 会 首先 出 现在 标准 输出 上 ， 接 着 程序 从 标 
准 输入 (继承 自 Perl 的 STDIN) 等 待 回应 。 你 会 看 到 这 个 问题 ， 然 后 键入 答案 (比如 
“Zimbabwe time”) ， 然 后 date 才 能 完成 它 的 任务 。 


子 进程 正在 运行 时 ，Perl 会 很 有 耐心 地 等 它 结 束 。 如 果 daie 命 令 耗 时 37 秒 ，Perl 就 会 暂停 
37 秒 。 然 而 ， 你 可 以 利用 shell 提 供 的 功能 来 启动 后 台 进 程 注 31， 


System “Jong_runnjing_command with parameterSs 8& ; 


现在 会 启动 shell， 而 它 会 注意 到 命令 行 结尾 的 与 号 。 于 是 shell 让 long_ running_command 
成 为 后 台 进程 并 立即 退出 。 接 着 ，Perl 会 注意 到 shell 已 经 返回 了 ， 现 在 可 以 做 别 的 事情 
了 。 在 这 个 例子 中 ，1long_running_command 其 实 是 Perl 的 孙 (grandchnild) 进程 ， 只 是 
Perl 无 法 直接 控制 〈 或 访问 ) 它 ， 也 不 知道 它 的 存在 。 


当 命令 “很 简单 ”的 时 候 ， 不 会 用 到 shell。 在 之 前 运行 dare 与 6 命令 时 ，Perl 会 寻找 待 执 

行 的 命令 ， 必 要 时 会 使 用 继承 而 来 的 PATH 变量 圭 4。 找 到 之 后 ， 就 直接 启动 它 。 但 如 果 

注 2; 不 过 据 我 所 知 ， 目 前 还 没有 人 设计 出 这 种 工作 方式 的 daie 命 令 。 

注 3: 现在 你 知道 我 们 所 说 的 “ 因 使 用 的 系统 而 异 ” 的 意思 了 吗 ? Unix shell (/piz/sp) 允许 你 
”在 运行 这 类 命令 时 使 用 与 号 来 启动 一 个 后 台 进 程 。 当 热 如 果 你 在 非 Unix 系 统 上 工作 ， 往 

往 不 能 这 样 启动 后 台 进 程 ， 那 样 自然 也 无 法 这 么 做 。 

注 4: PATH 是 一 系列 存放 可 执行 程序 的 目录 清单 ， 在 非 Unix 系 统 上 也 有 这 样 的 概念 。 你 随时 可 

以 通过 修改 Peri 的 %ENV 中 的 $ENV{ "PATH'"} 的 值 来 达到 改变 环境 变量 的 目的 。 初 始 时 ， 这 是 

从 父 进程 (通常 是 shell) 继承 的 环境 变量 。 改 变 这 个 值 会 影响 新 的 子 进程 ， 但 不 能 影响 

到 之 前 的 父 进程 。 
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字符 串 里 出 现 奇 怪 的 字符 ， 例 如 shell 元 字符 ;美元 符号 、 分 号 、 竖 线 等 ， 那 么 会 调用 标 
准 Bourne Shell (/pin/si) 园 5 来 处 理 。 这 样 一 来 ，shel] 是 子 进程 ， 要 执行 的 命令 则 是 孙 
进程 (或 是 更 下 一 代 ) 。 


比如 ， 你 可 以 把 下 面 简短 的 shell 嘟 本 放 进 参数 里 [ 注 6]， 
System "for ji in *#;) do echo == $i ==; cat $i; done '; 


这 里 我 们 再 次 使 用 了 单 引 号 ， 因 为 其 中 的 美元 符号 是 给 shell 用 的 ， 而 不 应 该 由 Perl 解 
释 。 双 引号 会 让 Perl 内 播 旺 的 值 ， 而 不 是 用 作 shell 的 变量 [二 ]。 附 带 一 提 ， 这 个 简短 的 
shell 脚 本 会 将 当前 目录 中 每 个 文件 的 文件 名 及 其 内 容 显示 出 来 。 如 果 你 不 相信 我 们 的 
话 ， 不 妨 自己 试 试 。 


避免 使 用 Shell 
systen 操 作 符 也 可 以 用 一 个 以 上 的 参数 来 调用 “:， 如 此 一 来 ， 不 管 你 给 的 文本 有 多 复 
杂 ， 都 不 会 用 到 shell。 做 法 如 下 [ 考 9]1， 

my $tazfjile = “Something*+wicked.tar'; 

my @dirs = quw(fred|flintstone “barneyg&rubble> betty ); 

System “tar' ，"Cvf'  ， 和 $tarfjile，@dirs; 
在 这 个 例子 里 ， 第 一 个 参数 ,tar' 是 命令 名 称 ， 在 shell 里 可 以 通过 PATH 环境 变量 辅助 定位 
它 。 接 下 来 ， 后 面 的 参数 会 被 逐 项 传递 给 前 面 的 命令 。 即 使 参数 里 出 现 对 shel1 有 意义 的 
字符 ， 例 如 $tarfile 存 储 的 文件 名 中 的 性 号 或 者 edixrs 存 储 的 路 径 中 的 管道 符号 、 大 小 于 
号 以 及 与 号 ， 都 不 会 被 shel 误 解 为 特殊 含义 。 所 以 tar 命 令 会 刚好 得 到 5 个 参数 ， 包 括 一 
个 选项 、 一 个 打包 后 的 文件 名 称 以 及 三 个 要 打包 的 目录 。 和 下 面 这 种 带 有 安全 隐患 的 写 


注 5; 或 者 在 你 编译 Perl 的 时 候 找到 的 shell， 不 过 实际 情况 中 ， 在 Unix 类 的 系统 上 几乎 总 是 /Bin/ 
3 。 

注 6: 。 CPAN 上 有 一 个 shell 到 Perl 的 代码 转换 器 ， 是 在 菜 个 值得 纪念 的 日 子 由 Randal 上 传 的 。 这 
个 转换 器 用 的 就 是 这 个 技巧 。 

注 7: 当然 ， 如 果 你 把 它 设置 为 $i = ':$i'"， 也 是 能 正常 工作 的 。 但 没准 哪 天 会 有 一 个 程序 员 
“好 心 ” 帮 你 删 掉 那 行 ! 

注 8: 或 者 按 间 接 对 象 写 法 ， 第 一 个 参数 后 面 不 用 过 号 ， 例 如 system { “fred'” jj “'barney'; 。 

、 它 实际 上 会 运行 程序 barney， 但 却 自己 骗 自 己 地 说 ， 程 序 名 是 'fred'。 查 看 perlPunc 文 档 

了 解 更 多 信息 。 

注 9: 参阅 《Mastering Perl》 一 书 娄 中 有 关 安 全 的 章节 以 获取 更 多 详尽 细节 。 








进程 管理 | 273 


system "tar CVf $tarfile 6@dirs"; # 糟糕 ! 
这 样 就 会 把 一 大 堆 压 缩 后 的 数据 通过 管道 传送 给 Pintstone 命 令 ， 然 后 将 它 放 在 后 台 运 
行 ， 同 时 把 输出 信息 写 人 名 为 betty 的 文件 。 这 还 算 好 ， 要 是 edirs 里 存放 的 是 下 面 这 样 
的 内 容 ， 又 会 发 生 什么 : 

my edirs = qw( ;zxzm -rzfy ); 
edirs 是 不 是 列表 并 不 重要 ，Perl 会 简单 地 把 它 内 插 后 变 成 单个 参数 传递 给 system。 
这 真是 有 点 吓人 [ 往 101， 尤 其 是 当 数据 来 自 Web 表 单 这 样 的 用 户 输入 的 时 候 。 所 以 也 许 你 


真 的 应 该 早 些 下 决心 ， 开 始 用 system 的 多 参数 版 本 来 启动 子 进 程 。 当 然 这 样 你 也 会 同时 
失去 让 shell 帮 你 设 定 MO 重 定向 、 后 台 进 程 等 等 事情 的 能 力 ， 天 下 没有 免费 的 午餐 。 


另外 请 注意 ， 虽 然 system 的 单一 参数 调用 基本 上 和 system 的 多 参数 调用 非常 相似 ; 


System $command_line; 
System /bjin/sh' ，“-c"，$command line; 


但 几乎 没 人 会 用 后 面 这 种 写法 ， 除 非 你 想 使 用 不 同 的 shell 来 处 理事 情 ， 比 如 C shell， 
System “/binVcsh'， "-fc'，$command_ 1ine; 


不 过 这 种 情形 依然 十 分 少见 ， 因 为 即使 “至 尊 (One True) ”Shell [E10 也 有 足够 的 灵活 
性 ， 尤 其 是 在 脚本 处 理 方面 。 


systenm 操 作 符 的 返回 值 是 根据 子 进程 的 结束 状态 来 决定 的 [ 圭 I2]。 在 Unix 里 ， 退 出 值 o 代 
表 正 常 ， 非 零 退 出 值 则 代表 有 问题 : ， 
unless 〈System “date') 
# 返回 0 的 话 就 代表 执行 成 功 


pTint "We gave you a date，0OKINn ; 


} 
注意 绝 大 多 数 操作 符 遵从 “ 真 为 正常 ， 假 为 异常 ”的 准则 ， 而 这 里 恰恰 相反 ， 所 以 若 要 


注 10: 除非 你 已 经 开始 启用 taint (污染 ) 检查 并 做 好 十 全 准备 ， 对 用 户 传 入 的 数据 进行 事先 簿 
查 ， 否则 难免 被 菜 个 用 户 戏 弄 。 

注 11: 也 就 是 /Pin/sp 或 者 任何 在 Unix 系 统 中 已 经 安装 的 最 接近 Bourne shell 的 那个 。 如 果 你 没有 
安装 “至 尊 ”Shell 的 话 ，Perl 会 尝试 随便 调用 一 种 命令 行 解释 器 ， 因 此 你 得 后 果 自 负 。 
请 参考 有 关 Perl 移植 的 文档 了 解 详细 信息 。 

注 12: “其实 是 所 谓 “和 等待” 状态， 就 是 用 子 进程 退出 码 乘 以 236， 若 出 现 前 汕 内 存 转 储 则 再 加 上 
128， 还 要 加 上 和 甬 发 程序 终止 的 信号 数 号 〔 如 果 有 的 话 ) 。 但 我 们 很 少 需要 解码 分 析 ， 国 
为 在 绝 大 部 分 的 应 用 中 ， 简 单 的 真 / 假 值 判 断 就 金 了 。 
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套用 “do this or die (做 这 件 事 ， 不 然 就 得 死 ) ”的 写法 ， 我 们 就 得 先 颠 倒 真 假 值 。 最 简 
单 的 做 法 就 是 在 system 操 作 符 之 前 加 上 逻辑 操作 符 ， 也 就 是 感叹 号 ; 


1system “ITm -If files_to_delete' or die 'something went WIong ; 


注意 在 这 个 例子 里 面 ， 车 要 显示 错误 信息 不 能 引入 $4! 变 量 ， 因 为 错误 多 半 发 生 在 rm 命令 
的 运行 时 刻 ， 不 是 $! 能 捕获 的 系统 调用 相关 错误 。 


环境 变量 


在 使 用 这 里 讨论 的 任何 方法 启动 其 他 进程 的 时 候 ， 可 能 会 需要 设置 程序 的 环境 。 前 面谈 
到 我 们 可 以 在 一 个 特定 的 工作 目录 下 启动 进程 ， 然 后 它 会 从 父 进程 继承 这 个 目录 。 环 境 
变量 则 是 另 一 种 常见 的 配置 。 


最 广为人知 的 环境 变量 是 PATH ( 若 没 有 昕 说 过 ， 多 半 你 在 使 用 不 支持 环境 变量 的 系 
统 ) 。 在 Unix 类 的 系统 上 ，PATH 是 以 冒号 分 隔 的 目录 列表 ， 其 元 素 是 可 执行 文件 的 搜索 
路 径 。 当 你 键入 rm 广 ed 这 样 的 命令 时 ， 系 统 会 在 目录 列表 中 依次 寻找 rm 命令 。Perl (或 
系统 ) 会 在 需要 时 用 PATH 来 搜索 程序 以 便 运行 ， 运 行 之 后 该 程序 若 需 要 调用 其 他 程序 ， 
也 会 使 用 PATH 来 搜索 它们 。 当然 如 果 指 定 了 命令 的 全 路 径 名 ， 像 /pin/echo， 就 没 必 要 
在 PATH 里 搜索 了 。 但 这 样 写 对 大 多 数 人 来 说 太 不 方便 了 。 ) 


在 Perl 中 ， 环 境 变量 可 通过 特殊 的 %ENV 哈 希 取得 ， 其 中 每 个 键 都 代表 一 个 环境 变量 。 在 
程序 开始 运行 时 ，%ENV 会 保留 从 父 进程 (通常 为 shell) 继承 而 来 的 设 定 值 。 修 改 此 哈 希 
就 能 改变 环境 变量 ， 它 会 被 新 进程 继承 ， 也 可 以 由 Perl 本 身 来 使 用 。 假 如 现在 需要 运行 
系统 的 make 程 序 〈 进 而 运行 其 他 程序 ) ， 并 且 想 以 你 的 私有 目录 作为 寻找 命令 〈 包 括 
maKke 自 己 ) 的 首选 位 置 ， 假 如 还 要 禁用 IFS 环 境 变量 ， 以 免 make 或 其 后 的 命令 做 出 不 正 
常 的 举动 ， 就 可 以 这 么 写 : 

$ENV{ PATH"} = “/home/rootbeer/bin:$ENV{ PATH } "3 

delete $ENV{ "IFS' }; 

my $make_Tesult = System “make '; 
新 创建 的 进程 一 般 会 继承 父 进程 的 环境 变量 、 当 前 工作 目录 、 标 准 输入 、 输 出 与 错误 流 
和 另外 一 些 “ 小 秘密 ”。 可 以 参考 系统 与 程序 设计 相关 的 文档 来 了 解 更 多 细节 。 但 是 请 
记 住 : 修改 从 父 进程 继承 的 环境 变量 并 不 能 影响 shell 或 者 其 他 父 进程。 


exec 函 数 


到 目前 为 止 ， 我 们 提 到 的 systenm 函 数 的 所 有 语法 也 都 适用 于 exec 函 数 。 当 然 有 一 个 重要 
的 例外 ，systenm 函 数 会 创建 子 进程 ， 子 进程 会 在 Per 睡眠 期 间 执行 任务 。 而 exec 函 数 却 
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导致 Per 进程 自己 去 执行 任务 。 这 类 似 于 子 程序 调用 与 “goto” 语 名 的 差别 。 
例如 ， 要 运行 /tmp 有 目录 下 的 pedrock 命 令 并 带 上 -6 ar8s1 以 及 程序 本 身 所 调用 的 参数 ， 可 
chdir “/tmp” or die“Cannot chdir /tmp: $! 
exec “bedrock' ，“'-0'， "args1 ，@ARGV; 
当 我 们 运行 到 exec 时 ，Perj 找 到 bedrock 并 且 “ 跳 进去 ” 执行。 此后， 就 没有 Pen 进程 了 庆 虽 ， 
只 有 那个 运行 bedrock 命 令 的 进程 。 这 样 在 bedrock 运 行 结束 时 ， 没 有 Per 进程 在 等 待 。 


为 何 要 这 样 做 呢 ? 其 实 这 个 Peri 程 序 的 主要 功能 是 为 另 一 个 程序 的 运行 设 定 运行 环 境 。 
你 可 以 预先 修改 环境 变量 ， 修 改 当前 工作 目录 ， 修 改 软 认 的 文件 句柄 等 等 : 


$ENV{PATH} =“/bin:Vusr/bin'; 
$ENV{DEBUG} = 1; 
$ENV{ROCK} =“8granite' ; 


chdir '/Users/+red ' ; 
open 5STDOUT， "> ， /tnmp/Vgranite.out '; 


exec， “bedrock ' ; 


如 果 使 用 systenm 而 不 是 exec，Perl 程 序 必 须 傻 傻 地 等 另 一 个 程序 运行 完毕 才能 跟着 收 
工 ， 无 疑 这 是 在 浪费 系统 资源 。 


话 虽 如 此 ， 实 际 上 我 们 很 少 用 到 exec， 一 般 都 是 将 它 和 fork 一 起 使 用 ， 这 稍 后 会 介绍 。 
因此 如 果 吃 不 准 到 底 该 用 system 还 是 exec， 就 总 是 用 system 好 了 ， 大 多 数 情况 下 这 都 是 


一 旦 要 执行 的 命令 启动 后 ，Perl 便 放手 退出 ， 无 法 再 控制 它 ， 因 此 在 exec 调 用 之 后 写 的 
任何 代码 都 无 法 运行 ， 不 过 如 果 启 动 过程 出 现 错误 ， 那 么 后 续 的 捕获 语句 还 是 可 以 继续 
运行 的 


exXec “date '; 
die “date couldn't run: $1”; 


用 反 引 号 捕获 输出 结果 


无 论 用 system 还 是 exec， 所 执行 命令 的 输出 都 会 送 往 Perl 的 标准 输出 。 有 了 时候 我 们 感 兴 
趣 的 是 将 输出 结果 捕获 成 字符 串 ， 以 便 后 续 进 一 步 处 理 。 要 提取 该 输出 信息 ， 只 要 用 反 


注 13， 其实 还 是 那个 老 的 进程 ， 只 不 过 执行 了 Unix 的 exec(2) 或 等 歼 的 系统 调用 。 这 样 进程 号 是 
不 变 的 。 2 
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引号 代替 单 引 号 或 双 引 号 就 可 以 了 : 


my $now =“date`; # 捕获 date 命 令 的 输出 

print "The time is now $now"; # 换行 符 已 经 包含 在 捕获 内 容 中 
一 般 来 说 ，dare 命 令 能 输出 长 度 约 为 30 个 字符 的 字符 串 ， 其 中 含有 今天 的 日 期 与 时 间 ， 
最 后 接 上 一 个 换行 符 。 当 我 们 把 date 放 在 反 引 号 里 时 ，Perl 会 执行 这 个 date 命 令 并 将 其 标 
准 输出 结果 以 字符 串 形式 捕获 。 在 这 个 例子 中 ， 字 符 串 会 被 赋予 $now 变 量 。 


这 就 像 Unix shell 的 反 引 号 一 样 ， 但 shell 还 会 做 额外 的 处 理 ， 它 会 将 最 后 一 个 换行 符 移 
除 ， 让 它 易于 与 其 他 东西 结合 。Perl 总 是 很 诚实 ， 它 会 直接 使 用 接收 到 的 真实 输出 。 要 
在 Perl 中 取得 相同 的 结果 ， 我 们 可 以 对 取得 的 字符 串 进 行 一 次 chomp 运 算 : 

chomp(my $no_newline_now =“date`); 

pTrint “"A_ moment ago0，it Was $no_newline_now，I think.\n'" ; 
反 引 号 里 面 的 内 容 就 相当 于 单个 参数 形式 的 system 困 数 调用 [ 注 !4 并 且 会 以 双 引 号 内 的 字 
符 串 的 方式 进行 解释 ， 换 名 话说， 我们 可 以 在 里 面 使 用 反 斜 线 转 义 和 变 量 ， 它 们 会 被 适 
当地 展开 二。 比如 要 取得 一 系列 Perl 函 数 的 说 明文 档 ， 可 以 重复 执行 perldoc 命 令 ， 每 
次 使 用 不 同 的 参数 : 


my @functions = quaf int Tand Sleep length hex eof not exit sqrzrt umask }; 
my %about; 


foreach (6@functions) { 
4$about{$_} =“perldoc -t -f$ 
} 


请 注意 ， 每 次 循环 执行 时 $_ 的 值 都 会 不 同 ， 这 让 我 们 可 以 每 次 只 改变 一 个 参数 就 产生 不 
同 的 命令 并 取得 它 的 输出 。 另 外 ， 如 果 你 还 不 熟悉 这 些 函 数 ， 不 妨 趁 此 机 会 看 一 下 说 明 
文档 ， 了 解 使 用 细节 。 
除了 反 引 号 ， 你 还 可 以 使 用 更 为 一 般 化 的 引起 操作 符 qx()， 它 所 完成 的 工作 是 一 样 的 ; 


foreach (efunctions) { 
$about{$_} = qx(perldoc -tt -ff $ ); 
】} 


和 其 他 一 般 化 的 引起 操作 符 类 似 ， 选用 这 种 写法 可 以 避免 转 义 被 引起 内 容 中 出 现 的 分 隔 
注 14;， 就 是 说 ， 它 也 总 是 以 “至 尊 ” Shell (Binjsi) 或 相近 的 脚本 解释 器 来 解释 的 ， 就 像 ， 


System 那样 。 


注 15; 所 以 车 要 向 she1] 发 送 一 个 真正 的 反 斜 线 ， 就 得 连 写 两 个 反对 线 。 而 在 Windows 环 境 中 常 
常 需要 2 个 连续 的 反 斜 线 ， 所 以 需要 连 写 4 个 。 
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符 。 如 果 要 执行 的 命令 中 本 身 就 需要 包含 反 引 号 ， 那 就 可 以 用 qx() 避 免 频 繁 转 义 带 来 的 
和 干扰。 此 外 ， 选 用 一 般 化 的 引起 操作 符 还 有 一 个 好 处 ， 就 是 如 果 选 用 单 引号 作为 分 隔 符 
的 话 ， 可 以 禁止 变量 内 插 。 比 如 希望 选用 shell 的 进程 编号 ID 变量 下 而 不 是 Perl 的 时 候 ， 
就 可 以 用 qx… 避 免 Perl 内 插 该 变量 : 


my $output = qx' echo $$ ; 


接 下 来 要 说 明 什么 情况 下 不 该 使 用 反 引 号 ， 但 这 个 演示 本 身 可 能 存在 风险 。 我 们 的 建议 
是 ， 如 果 不 需 要 捕获 输出 内 容 ， 就 不 要 使 用 反 引号 9， 比如 下 面 这 个 例子 ; 

print "Startjing the frobnitzigator:N\n"; 

`frobnitz -enable`; # 请 不 要 这 么 做 ! 

print "DonelNn”; 
这 里 的 问题 是 ， 就 算 你 不 需要 ，Perl 也 会 尽力 捕获 该 命令 输出 ， 然 后 直接 丢弃 。 同 时 ， 
这 种 形式 的 写法 也 让 你 天 去 了 以 system 的 多 参数 形式 精确 控制 传人 参数 的 能 力 。 所 以 ， 
在 安全 与 效率 的 双重 考虑 之 下 ， 请 改 用 system 函 数 。 


以 反 引 号 执行 的 命令 的 标准 错误 会 继承 Perl 当 前 的 标准 错误 输出 。 如 果 该 命令 将 错误 信 
息 送 到 标准 错误 ， 就 可 能 会 显示 在 终端 上 ， 从 而 导致 用 户 困惑 ， 因 为 他 并 未 运行 记 opmitz 
命令 。 如 果 你 想 要 一 并 捕获 标准 输出 和 标准 错误 ， 就 可 以 使 用 shell 规 范 “ 将 标准 错误 合 
并 至 标准 输出 ”， 在 通常 的 Unix Shell 中 写成 2>&1; 


my $output_with_errors =“frobnitz -enable 2>81、; 


注意 这 会 让 标准 错误 与 标准 输出 的 信息 交织 在 一 起 ， 就 像 在 终端 上 看 到 的 那样 ， 当 然 可 
能 因为 缓冲 的 原因 有 顺序 上 的 细微 差别 。 如 果 你 需要 分 别 捕获 标准 输出 和 标准 错误 ， 
就 得 考虑 使 用 更 加 麻烦 的 解决 方案 | 坦 ”1 。 同样 地 ， 被 执行 的 命令 也 会 继承 Perl 当 前 使 
用 的 标准 输入 。 我 们 日 常 执行 的 命令 大 都 不 会 使 用 标准 输入 ， 所 以 没有 这 方面 的 问题 。 
但 是 ， 如 果 date 命 令 询问 你 要 使 用 的 时 区 (正如 我 们 之 前 假设 的 ) ， 这 样 就 会 有 问题 ， 
因为 提示 文字 “which time zone” 会 被 送 至 标准 输出 ， 成 为 被 捕获 内 容 的 一 部 分 ， 然 后 
date 会 试 着 从 标准 输入 读 进 数据 。 由 于 用 户 根本 看 不 到 提示 文字 ， 所 以 他 不 知道 该 输入 
数据 ! 没 多 久 ， 用 户 就 会 打 电 话 给 你 ， 说 你 的 程序 卡 住 了 。 


因此 ， 请 勿 使 用 会 读 取 标 准 输入 的 命令 。 如 果 你 不 太 确定 它 是 否 会 从 标准 输入 读 取 数 
据 ， 请 将 标准 输入 重 定向 为 从 /devwzztl 读 取 数 据 ， 如 下 所 示 ， 





注 16: ”这 其 实 就 是 所 谓 的 “ 空 ” 上 下 文 。 


注 17: ”比如 使 用 标准 Peril 库 里 的 TPC: :0pen3 横 块 ， 或 者 自己 编程 处 理 派生 子 进程 相关 的 事宜 ， 稍 
后 会 有 展示 。 
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my $result =“some_questjionable_command arz8g arg argh《“/dev/nul1 ; 


这 样 一 来 ， 子 shell 就 会 将 输入 重 定向 到 /dew/max1， 接 着 再 执行 那个 交互 式 命令 。 这 样 就 
算 它 要 求 输入 ， 也 只 会 读 到 文件 结 吉 束 符 。 


在 列表 上 下 文中 使 用 反 引 号 

如 果 命 令 会 输出 很 多 行 ， 那 么 在 标量 上 下 文中 使 用 反 引 号 会 得 到 一 个 很 长 的 字符 种， 其 
中 包含 换行 符 [ 注 181 。 不 过 ， 如 果 是 在 列表 上 下 文 使 用 同样 的 反 引 号 ， 则 会 返回 输出 字 
符 串 按 行 拆 分 的 列表 。 


比如 ，Unix 下 的 who 命令 会 用 多 和 了 文本 列 出 当前 登 录 到 系统 中 的 用 户 清单 ， 每 个 人 一 
行 ， 如 下 所 示 : 

merlyn tty/V42 Dec 7 19:41 

Tootbeer ”console Dec 2 14:15 

ITootbeeT tty/V12 Dec 6 23:00 
最 左边 的 一 列 是 用 户 名 ， 中 间 列 是 TTY 名 (也 就 是 登录 到 主机 的 终端 连接 的 名 称 ) ， 其 
余 的 列 则 是 登录 日 期 与 时 间 〈 也 许 还 有 远程 登录 信息 ， 但 本 例 没 有 ) 。 在 标量 上 下 文 
中 ， 我 们 会 在 一 个 变量 中 取得 所 有 这 些 输 出 ， 所 以 必须 自行 拆 开 : 


my $who_text =“who ; 
my @who_lines = split /An/，4$who_text; 


但 在 列表 上 下 文中 ， 则 会 自动 取得 拆 成 多 行 的 数据 
入 @who_ lines = “who ; 


现在 6who_ lines 里 会 有 多 个 拆 分 好 的 以 换行 符 结 尾 的 字符 串 。 对 这 个 结果 调用 chomp 就 可 
以 删除 所 有 元 素 未 尾 的 换行 符 。 不 过 不 如 换个 思路 ， 只 要 用 foreach 就 可 以 逐 行 处 理 ， 将 
它们 放 在 $_ 里: 
foreach (who`) { 

my($user，$tty，$date) = /(\S+)NSs+(\S+)NS+(.#) /3 

$ttys{f$useT} .= “"$tty at $dateN\n ; 

】} 
根据 上 面 的 数据 ， 这 个 循环 会 迭代 三 次 〈 你 的 系统 可 能 有 更 多 人 登录 ， 因 此 要 循环 的 
次 数 也 会 更 多 ) 。 注 意 这 里 还 用 了 正则 表达 式 进 行 匹 配 ， 但 并 没有 使 用 绑 定 操作 符 
(=>) ， 而 是 直接 针对 默认 的 $ 进行 匹配 。 这 种 写法 干净 利落 ， 因 为 数据 就 在 $ 里 。 


注 18: ”实际 上 ， 计 算 机 才 不 管 什么 换行 不 换行 的 ， 对 它 来 说 不 过 是 一 团 字 节 序 列 。 换 行 蔡 是 为 
了 便于 我 们 理解 信息 内 容 而 加 进去 的 ， 然 后 交代 它 对 此 做 一 些 特殊 处 理 。 否 则 ， 摘 行 符 
对 计算 机 来 讲 和 其 他 普通 字符 没什么 两 样 。 
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我 们 注意 到 ， 这 个 正则 表达 式 会 寻找 一 个 非 空白 的 单词 、 数 个 空白 、 一 个 非 空白 的 单 
词 、 数 个 空白 ， 接 着 是 剩余 的 所 有 单词 ， 但 是 不 包括 换行 符 (因为 点 号 蒜 认 不 匹配 换行 
符 ) 疆 !9]。 这 种 写法 的 另 一 个 好 处 是 ， 模 式 中 每 个 捕获 部 分 对 应 的 就 是 $_ 里 的 数据 。 于 
是 在 循环 处 理 第 一 行 时 ， 科 4 会 是 merlyn， 生 会 是 tty/42，$3 则 是 Dec719:41， 一 切 自 然而 
明晰 。 

不 过 ， 因 为 这 个 正则 表达 式 是 在 列表 上 下 文中 进行 运算 的 ， 所 以 如 第 八 章 所 述 ， 它 不 会 
像 标量 上 下 文中 那样 返回 真 假 值 ， 而 是 将 被 捕获 的 变量 放 进 列表 中 。 因 此 ，$usez 最 后 
会 得 到 merlyn 这 个 值 ， 其 他 变量 则 依 此 类 推 。 


循环 中 的 第 二 条 语句 只 是 用 来 存储 TTY 与 日 期 信息 ， 之 所 以 对 哈 希 值 〈 可 能 是 undef) 进 
行 筷 加 ， 是 考虑 到 同一 个 用 户 可 能 有 多 次 登录 的 情况 〈 比 如 这 个 例子 中 的 rzootbeer) 。 


用 IPC::System::Simple 执 行 外 部 进程 

运行 外 部 命令 或 捕获 其 输出 信息 向 来 是 件 辐 手 的 活 儿 ， 而 Perl 又 意 在 各 式 平台 无 颖 运 
行 ， 这 些 平台 又 都 有 特别 情况 需要 处 理 。Paul Fenwick 的 ITPC::System::Simp1e 模 块 把 
针对 特定 系统 的 复杂 操作 全 都 封装 到 幕后 ， 并 提供 统一 简洁 的 使 用 界面 。 目 前 它 还 不 是 
Perl 自 带 的 模块 ， 所 以 你 得 从 CPAN 下 载 安 装 “?01。 


这 个 模块 使 用 起 来 真 的 非常 简单 ， 好 像 没 什么 可 多 说 的 。 你 可 以 直接 用 它 提供 的 同名 国 
数 取 代 内 置 的 system 函 数 ， 但 其 幕后 的 处 理 更 为 健壮 : 

use IPC::System: :Simple qw(system) 3 

my $tarfile = “Somethingkywicked.tar ; 


my @dirs = qw(fred|flintstone 《barneyg&rubble> betty ); 
System “tar ， "cvf' ，$tarfile，@dirs; 


它 还 提供 了 一 个 systemx 图 数 ， 在 执行 外 部 命令 时 不 会 通过 shell 调 用 ， 所 以 不 会 磁 到 shell 
导致 的 意外 状况 : 


SyStemXx “YaI ， "cvf'" ，$tarfile，@dirs; 


如 果 要 捕获 外 部 命令 的 输出 ， 只 消 把 system 或 systemx 改 成 capture 或 captuTex 就 可 以 
了 ， 它 们 的 作用 就 好 像 反 引号 一 样 〈 但 更 好 些 ) : 


注 19: 现在 你 该 明白 为 什么 点 号 默认 不 会 匹配 换行 竺 了 吧 。 它 可 以 让 我 们 轻松 写 出 上 面 这 样 的 
模式 ， 而 不 必 担 心 最 后 的 换行 符 。 另 外 请 记 住 ， 如 果 用 的 是 Perl 5.12 或 以 上 的 版 本 ， 有 
一 个 WN 表示 除 换行 符 之 外 的 所 有 字符 ， 意 义 明确 ， 看 起 来 也 更 漂 竞 。 


注 20: 地址 为 http:/Wsearch.cpan.Or8/diSIPC -System-Sinple 员 
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my @output = captuTex “tar'， "cvf'" ，$tarfile，@dirs; 


为 了 让 这 些 函数 能 在 Windows 下 正常 运行 ，Paul 做 了 大 量 工作 。 除 了 上 面 介绍 的 之 外 ， 
这 个 模块 还 能 做 很 多 其 他 事情 ， 具 体内 容 还 请 参考 该 模块 的 文档 。 这 里 不 深入 介绍 的 原 
因 是 ， 某 些 功能 涉及 我 们 还 没 提 过 的 引用 的 概念 | 注 20。 如 果 你 知道 如 何 使 用 ， 我 们 建议 
你 换 掉 内 置 的 Perl 函 数 而 改 用 该 模块 提供 的 功能 。 


A 一 全 
通过 文件 句柄 执行 外 部 进程 
到 目前 为 止 ， 我 们 看 到 的 方法 都 是 由 Perl 同 步 控制 子 进程 ， 启 动 一 个 命令 ， 然 后 等 待 它 。 
结束 ， 然 后 也 许 还 会 捕获 其 输出 。 但 Perl 其 实 也 可 以 启动 一 个 异步 运行 的 子 进程 ， 并 和 
它 保持 通信 [ 注 22， 直 到 子 进程 结束 为 止 。 


要 启动 并 发 运行 的 子 进程 ， 请 将 命令 放 在 open 调 用 的 文件 名 部 分 ， 并 且 在 它 前 面 或 后 
面 加 上 紧 线 ， 也 就 是 管道 符号 。 因 此 ,也 有 人 将 这 种 调用 方式 叫做 “管道 式 打开 (piped 
open) ”。 在 两 个 参数 的 形式 中 ， 管 道 符号 安放 在 要 执行 的 命令 的 开头 或 者 结尾 : 

open DATE， 'datej” or die "cannot pipe from date: $!; 

open MAIL，“"|majil merlyn"” or die "cannot pipe to mail: 下 !”; 
第 一 个 例子 里 的 紧 线 在 命令 的 右边 ， 表 示 该 命令 执行 时 它 的 标准 输出 会 连接 到 供 程序 读 
取 的 文件 句柄 DATE， 就 像 在 shell 里 执行 datelyoxr_program 这 个 命令 一 样 。 在 第 二 个 例子 
里 ， 竖 线 在 左边 ， 所 以 该 命令 的 标准 输入 会 连接 到 供 程序 写 人 的 文件 句柄 MAIL， 就 像 在 
shell 里 运行 yowr_programalmaailzaerly1 这 个 命令 一 样 。 不 论 紧 线 在 左 在 右 ， 都 会 启动 一 个 
独立 于 Perl 的 进程 !231 。 如 果 无 法 创建 子 进 程 ，open 就 会 失败 。 如 果 命 令 不 存在 或 没 
有 发 生 错误 而 正常 结束 ， 这 在 打开 时 通常 不 会 有 错误 发 生 ， 但 是 在 关闭 时 却 会 报错 。 稍 
后 我 们 就 会 遇 到 这 样 的 状况 。 


三 个 参数 的 形式 看 起 来 有 点 奇怪 ， 因 为 就 读 取 用 的 文件 句柄 而 言 ， 管 道 符号 写 在 了 命令 
“ 占 位 符 ” 的 后 面 。 其 实 这 里 定义 的 是 文件 句柄 打开 模式 ， 如 果 需 要 读 取 用 的 文件 名 
柄 ， 就 用 -| ， 如 有 果 需 要 写 人 用 的 文件 句柄 ， 就 用 |-，- 的 位 置 就 好 比 是 要 执行 的 命令 在 管 
道 传递 中 的 位 置 ; 





注 21: 不 过 ， 差 不 多 已 经 到 本 书 末 尾 了 ， 而 本 系列 的 下 一 本 书 《Intermediat Perl》 的 开头 讲 
的 就 是 有 关 引 用 的 知识 。 


注 22: “通过 管道 或 者 操作 系统 提供 的 简易 进程 间 通 信 机 制 。 


注 23: ”如果 Perl 进 程 比 命令 早 结束 ， 默 认 情 况 下 ， 等 待 中 的 读 取 数 据 的 命令 会 得 到 文件 结尾 ， 
而 写 入 数据 的 命令 在 下 一 次 写 入 时 会 收 到 “broken pipe” 的 错误 信号 。 
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:Open my $date_fh，'-| ， "date” or die“"cannot pipe from date: $1 
open my $mail fh， "|-"， "mail merlyn' 
or die“cannot pipe to majil: $! ”; 

使 用 管道 方式 的 open 操 作 还 可 以 使 用 三 个 以 上 的 参数 。 第 四 个 及 其 后 的 所 有 参数 都 将 作 
为 要 执行 的 外 部 命令 的 参数 ， 所 以 上 面 的 写法 可 以 拆 成 下 面 这 种 形式 : 

open my $mail fh， |- "， "mail' ， "mezrlyn' 
or die "cannot pipe to majil: $1”; 
不 管 哪 种 写法 ， 无 论 从 哪 点 看 ， 程 序 接 下 来 的 部 分 既 不 知道 也 不 在 平 ， 甚 至 得 用 尽 办 法 
才能 分 辨 出 这 个 文件 句柄 其 实 是 连接 到 进程 而 非 文件 。 所 以 ， 如 果 要 从 以 读 取 模 式 打 开 
的 文件 句柄 读 取 数 据 ， 只 要 采用 正常 的 文件 读 取 方 式 即 可 : 


my $now =《$date_fh> ; 


要 想 发 送 数据 到 mail 进 程 〈 它 此 刻 正 在 等 待 从 标准 输入 读 取 发 送 给 merLyn 的 邮件 正 
文 ) ， 只 要 利用 输出 到 文件 句柄 的 print 就 能 完成 : 


print $mail fh“The time is now $now"; # 假设 $now 以 换行 符 结 尾 


总 之 ， 可 以 假想 成 这 些 文件 句柄 都 连接 了 魔力 文件 ， 一 个 包含 了 daie 命 令 的 输出 ， 另 一 
个 可 以 自动 用 maz 命 令 发 送出 去 。 


如 果 外 部 进程 在 连接 到 某 个 以 读 取 模式 打开 的 文件 句柄 后 自行 退出 运行 ， 那 么 这 个 文件 
句柄 就 会 返回 文件 结尾 标识 符 ， 就 好 像 已 经 读 完 了 正常 的 文件 一 样 。 当 你 关闭 用 来 写 
入 数据 到 某 进程 的 文件 句柄 时 ， 该 进程 会 读 到 文件 结尾 标识 符 。 所 以 ， 要 结束 邮件 的 发 
送 ， 只 要 关闭 这 个 文件 句柄 即 可 : 

close $majil_fh3 

die "mail: non-zerO exjit of $?” 半 $?; 
关闭 连接 至 进程 的 文件 句柄 会 让 Perl 等 待 该 进程 结束 以 取得 它 的 结束 状态 。 结 束 状 态 
会 存 人 $? 变 量 〈 联 想到 Bourne Shell 里 的 同名 变量 了 吗 ? ) ， 它 的 值 就 与 system 国 数 返 
回 的 数值 一 样 : 零 表 示 成 功 ， 非 零 值 代表 失败 。 每 个 结束 的 进程 都 会 覆盖 掉 前 一 个 返回 
值 ， 所 以 ， 如 果 你 需要 这 个 值 ， 请 尽快 保存 。 《如 果 你 好 奇 的话 ，$? 变 量 也 会 存储 前 一 次 
system 或 用 反 引 号 圈 引 的 命令 的 返回 值 。) 
这 些 进 程 间 的 同步 方式 ， 就 像 shell 中 被 管道 连接 的 命令 一 样 。 如 果 你 试 着 想 要 读 取 数 
据 ， 但 是 没有 任何 数据 送 达 ， 程 序 就 会 暂停 (但 不 会 消耗 额外 的 CPU 时 间 ) ， 直 到 送出 
数据 的 进程 有 数据 发 送 为 止 。 同 样 ， 如 果 产 生 数 据 的 进程 超出 读 取 进程 的 速度 ， 它 就 会 
减速 运行 ， 直 到 读 取 数 据 的 进程 赶 上 为 止 。 进 程 之 间 会 有 缓 钟 区 〈 一 般 是 8KB 大 小 ) ， 
这 样 可 以 避免 它们 相互 锁定 。 
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为 什么 要 用 文件 句柄 的 方式 来 和 进程 打交道 呢 ? 喝 ， 假 如 要 根据 计算 的 结果 来 决定 写 到 
其 他 进程 的 数据 ， 这 是 唯一 简单 的 做 法 。 可 是 如 果 只 想 读 取 ， 除 非 想 在 结果 出 现时 立刻 
取得 ， 否 则 反 引 号 通常 更 易于 使 用 。 然 而 如 果子 进程 不 时 有 数据 要 送 给 父 进程 的 话 ， 就 
必须 用 管道 了 。 


比如 Unix 的 六 ad 命令 可 以 依照 文件 属性 来 寻找 文件 位 置 。 但 如 果 文 件数 目 很 多 的 话 ， 
这 会 耗费 不 少时 间 ， 尤 其 是 可 能 要 从 根 目录 开始 找 时 。 虽 然 可 以 将 疡 ad 命令 放 在 反 引 号 
内 ， 但 你 也 可 以 在 每 找到 一 个 文件 时 就 立即 取得 它 的 名 称 。 这 通常 是 比较 好 的 做 法 : 

open my $find_ fh，“'-| ， 

“find  ，qw( / -atime +90 -size +1000 -print ) 

or die“fork: $!1”; 

While 〈<$find_fh>) f 

chomp; 

pzrintf "%s size %dK last accessed %.2f days ago\n”， 

$ ，(1023 + -s $ )/1024，-A $ 

】} 
这 里 的 记 zd 命 令 是 要 查找 那些 90 天 内 未 被 访问 过 的 ， 占 用 空间 超过 1 000 个 块 的 大 文件 ， 
它们 非常 适合 被 归档 到 永久 性 存储 介质 中 。 在 ind 工作 时 ，Perl 会 等 待 。 每 找到 一 个 文 
件 ，Per1 会 对 每 个 传 进来 的 文件 名 作出 响应 并 进一步 显示 文件 的 相关 信息 供 分 析 。 如 果 
我 们 用 反 引 号 来 写 这 个 程序 的 话 ， 就 得 等 到 记 nad 彻 底 搜 索 完 才能 看 到 第 一 行 输出 。 从 任 
务 监 控 角 度 来 说 ， 往 往 看 到 执行 的 最 新 进展 才能 让 人 放心 。 


用 fork 进 行 深入 和 复杂 的 工作 


除了 之 前 介绍 的 高 级 接口 外 ，Perl 还 提供 了 近乎 直接 执行 Unix 及 某 些 其 他 系统 的 低级 进 
程 管理 系统 调用 的 能 力 。 如 果 你 从 来 没有 这 样 做 过 [ 注 20， 不 妨 略 过 本 节 。 虽 然 本 章 的 篇 
幅 不 足以 详 述 全 部 细节 ， 但 我 们 至 少 先 来 看 看 下 面 这 条 语句 的 低级 实现 ， 


System “date ; 
如 果 换 用 低级 系统 调用 ， 大 致 可 以 写成 ， 


defined(my $pid = fork) or die“Cannot fork: $1!”; 
unless〈$pid) { 

# 能 运行 到 这 里 的 是 子 进程 

exec “date  ; 

die “cannot exec date: $!”; 


】 


注 24: 或 者 你 运行 在 一 个 不 支持 fork 的 系统 上 。 但 是 Perl 开 发 人 员 正 努力 在 此 系统 上 实现 支持 
fork， 即 使 系统 的 广 层 进程 模型 和 Unix 上 的 差距 非常 大 。 
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# 能 运行 到 这 里 的 是 父 进程 

waitpid($pid，0); 
这 里 检查 了 fork 的 返回 值 ， 它 在 失败 时 会 返回 undef。 如 果 成 功 了 ， 则 下 一 行 开 始 就 会 有 
两 个 不 同 的 进程 在 运行 。 因 为 只 有 父 进程 的 $p id 不 是 零 ， 所 以 只 有 子 进 程 会 执行 exec 函 
数 。 父 进程 会 略 过 该 部 分 ， 直 接 执行 waitpid 函 数 ， 也 就 是 在 那里 等 待 特定 的 子 进程 结束 
(在 这 期 间 ， 考 是 其 他 的 子 进 程 结 束 执行 ， 则 会 被 忽略 掉 ) 。 如 果 这 些 听 起 来 像 天 书 的 
话 ， 那 也 没关系 ， 继 续 使 用 system 函 数 。 你 不 会 被 朋友 耻 笑 的 。 


在 付出 额外 的 代价 之 后 ， 程 序 员 也 获得 了 完整 的 控制 权 ， 可 以 创建 任意 管道 、 对 文件 句柄 
进行 重新 安排 ， 也 可 以 进一步 了 解 子 进程 ID 和 父 进 程 ID。 但 对 于 这 一 章 来 说 ， 这 些 细节 还 
是 太 复杂 了 ， 想 要 深入 的 话 ， 请 参阅 per1ipc 文 档 ， 或 者 阅读 详细 谈论 系统 编程 的 书籍 。 


发 送 及 接收 信号 


Unix 信 号 | 坦 5] 是 发 送 给 进程 的 一 条 简短 的 消息 。 信 号 无 法 作 详尽 说 明 ， 它 就 像 汽 车 喇 

叭 声 一 样 ， 喇 叭 声 对 你 而 言 ， 可 能 代表 “小 心 ! 桥 断 了 ”、“ 绿 灯 啦 ! 快走 ”、“ 快 停 

下 ! 车 顶 上 有 个 小 孩 ”， 或 是 “Hello,， world”。 好 在 ，Unix 信 和 号 比 这 些 稍 好 认 一 些 ， 因 

为 针对 不 同 的 情况 会 有 不 同 的 信号 [20。 信 号 会 用 不 同 的 名 称 相互 区 分 ( 像 STGINT 就 代 

表 中 断 信号 ) ， 另 外 还 有 一 个 相关 的 小 整数 也 可 用 来 识别 ( 它 的 取 值 范围 从 1 到 16、1 到 

.32 或 是 1 到 63， 依 你 的 Unix 系 统 而 定 ) 。 通 常 某 个 重大 事件 发 生 时 就 会 发 出 信号 ， 比 如 

在 终端 上 按 下 Control+C 这 样 的 中 断 字符 ， 就 会 给 与 此 终端 相连 的 所 有 进程 发 送 STIGINT 信 

号 性 ?1。 某 些 信号 可 能 是 由 系统 自动 发 送 的 ， 但 也 可 能 来 自 别 的 进程 。 

可 以 从 Perl 进 程 发 送信 号 给 别 的 进程 ， 但 是 得 先知 道 目 标 进 程 的 ID 。 要 说 明 如 何 取得 进 

程 ID 可 能 有 点 复杂 [ 往 281， 不 过 假设 你 已 经 知道 要 发 送 STIGINT 信 号 给 进程 4201， 而 且 我 

们 知道 SIGINT 对 应 的 编号 是 2， 那 么 做 法 简单 明了 [ 注 29]， 

注 25: ”Windows 没 有 信号 的 概念 ， 它 是 一 头 完全 不 同 于 Unix 的 怪兽 。 

注 26: 当然 与 以 上 这 些 状 况 并 非 完 全 相似 ， 不 过 确实 有 相近 的 Unix 信 和 号。 比如 信号 SIGHUP、 
SIGCONT、5IGINT 以 及 假 的 SIGZER0 (信号 编号 0) 。 

注 27: ”你 可 能 以 为 按 下 Control+C 就 会 中 止 程序 ， 其 实 这 样 做 只 是 送出 一 个 SIGINT 信 号 ， 而 这 个 
信号 在 默认 情况 下 恰巧 能 中 止 程序 而 已 。 稍 后 就 能 看 到 如 何在 收 到 SIGINT 信 号 时 做 些 其 
他 事 ， 而 不 单单 是 中 止 程序 运行 。 


注 28: “进程 ID 要 么 是 你 自己 以 foryk 产 生 的 ， 要 么 是 从 某 个 文件 中 或 是 从 外 部 程序 中 取得 。 从 外 
部 程序 中 取得 进程 ID 更 困难 ， 而 且 更 容易 出 错 ， 因 此 那些 要 运行 很 久 的 程序 往往 把 自己 
的 进程 ID 写 在 一 个 文件 里 面 ， 并 且 通 常 在 程序 文档 中 对 此 文件 明确 说 明 。 


注 29: “在 Unix 系 统 上 ， 要 列 出 所 有 信号 的 数字 代号 ， 可 以 在 命令 行 执行 Kil1 -! 命 令 查看 。 
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kill 2，4201 or die “Cannot Signal 4201 with SIGINT: $1; 


发 送信 号 的 命令 取 名 为 “kill”， 因 为 发 明 信 和 号 的 主要 目的 之 一 就 是 中 止 运行 了 太 久 的 进 
程 。 你 也 可 以 用 字符 串 'INT' 代替 2 发 送信 号 ， 所 以 无 需 记 住 信号 编号 : 


kill "INT'，4201 or die "Cannot 5ignal 4201 with SIGINT: $1 ”3; 
你 还 可 以 使 用 => 操 作 符 ， 这 样 信号 名 称 就 会 自动 作为 裸 字 字 符 串 ， 
kill INT => 4201 or die "Cannot signal 4201 with SIGINT: $1”; 


如 果 进 程 早 已 退出 [ 圭 30) ， 就 会 收 到 表示 失败 的 返回 值 。 所 以 我 们 可 以 借用 这 个 技巧 来 
判断 某 个 进程 是 否 仍然 存活 。 编 号 为 0 的 特殊 信号 的 意思 是 : “看 看 我 能 否 向 它 发 送信 
号 ， 但 目前 并 不 是 要 真 的 发 送 ， 所 以 请 不 要 扰 它 。” 因 此 ， 探 测 进 程 存 活 与 否 的 代码 
可 以 写成 这 样 : 


unless 人 《kill 0，4pid) { 
Wazn "$pid has gone awayl”; 


接收 信号 好 像 比 发 送信 号 要 有 趣 些 。 你 为 什么 会 想 要 这 么 做 呢 ? 假设 你 有 一 个 程序 会 在 
/tmp 目 录 里 创建 文件 。 正 常情 况 下 ， 程 序 结束 前 就 会 删除 这 些 文件 。 如 果 有 人 在 程序 运 
行 时 按 下 Control+C， 结 果 就 会 在 /tp 目录 里 留 下 垃圾 ， 而 这 是 很 不 礼貌 的 事情 。 要 解决 
这 个 问题 ， 可 以 创建 一 个 负责 清理 的 信号 处 理 程序 ; 


my $temp_directory = "/tmp/Vmyprog.$$"; # 在 这 个 目录 下 创建 文件 
-mkdir $temp_directory，0700 or die “Cannot cTeate $temp_directory: .$!1”; 


sub clean_up { 
unlink 81ob “$temp_directory/#"; 
ITmdir $temp_directory; 


】} 


sub my_jint_handler { 
&clean_up(); 
die“interTupted，exiting.,.Nn ; 


】 
4$SIG{ INT'} = "my_jint_handler ; 


# 时 间 藻 逝 ， 程 序 在 运行 着 ， 在 临时 目录 中 创建 一 些 
# 临时 文件 ， 然 后 可 能 有 人 按 了 Control+ 人 


注 30: 如 果 你 不 是 超级 用 户 或 者 该 进程 是 别人 的 ， 那么 发 送信 号 就 会 失败 。 无 论 如 何 ， 给 别人 
的 进程 发 送 SIGINT 也 总 是 很 失礼 的 举动 。 
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# 这 里 是 正常 执行 流程 结尾 都 分 了 
&clean_up(); 


对 特殊 哈 希 %SI6 赋 值 会 启动 信号 处 理 程 序 (直到 撤销 为 止 ) 。 哈 希 键 是 信号 名 称 ( 注 
意 ， 不 用 写 固定 的 SIG 前 缀 ) ， 哈 希 值 是 30 子 程序 名 (注意 ， 不 需要 与 号 ) 。 现 在 只 
要 收 到 SIGINT 信 号 ，Perl 就 会 暂停 手 上 的 事务 并 立刻 热 行 信号 处 理子 程序 。 这 里 的 子 程 
序 会 清理 临时 文件 并 退出 。 当 然 ， 即 使 没有 按 Control+C， 也 还 是 会 在 正常 执行 结束 之 前 
调用 &clean_up()。 


假如 信号 处 理子 程序 没有 结束 程序 而 是 直接 返回 ， 那 么 程序 会 从 先前 中 断 的 地 方 继续 运 
行 。 如 果 该 信号 只 是 要 中 断 某 些 事情 ， 而 不 是 停止 整个 程序 的 话 ， 这 种 时 候 就 该 用 返回 
而 非 退 出 。 举 例 来 说 ， 假 设 处 理 文件 里 的 每 行 都 慢 到 要 花 几 秒 钟 的 时 间 ， 而 你 想 要 在 收 
到 信号 时 停止 处 理 ， 却 不 想 让 进行 中 的 这 一 行 中 断 ， 这 时 ， 只 要 在 信号 处 理子 程序 中 设 
定 一 个 标记 ， 然 后 在 每 行 处 理 结束 时 检查 它 即 可 : 

my $int_count = 0; 


Sub my_int_handler { $int_count++ } 
$SIG{ INT'} = “my_jint_handler '; 


while (<SOMEFILE>) { 
.….j # 一 些 需要 花 几 秒 时 间 来 执行 的 操作 .. 
if ($int_count) { 
# 看 到 进来 的 中 断 信号 了 1 
print“[processing interrupted...]\n”; 
1ast; 


】} 


这 样 在 处 理 完 每 行 之 后 ， 如 果 没 有 按 下 Control+C， $int count 的 值 将 会 是 0， 循环 会 继 
续 下 一 次 的 处 理 。 但 是 如 果 发 生 中 断 ， 则 中 断 处 理 程 序 会 将 $int_count 加 1， 之 后 的 检查 
会 让 循环 中 止 。 

. 所以， 你 可 以 设 定 标记 或 是 直接 跳 离 程序 ， 而 这 两 种 方法 足以 涵盖 绝 大 部 分 捕获 信和 号 
的 需求 。 对 大 部 分 情况 来 说 ，Perl 要 一 直 等 到 安全 妥当 的 时 机 ， 才 会 动手 处 理 进来 的 
信号 。 比 如 Perl1 在 分 配 内 存 和 调整 内 部 数据 结构 的 阶段 是 不 会 理 皮 处 理 大 多 数 的 信和 号 
的 ! 往 33。 但 Perl 会 立即 处 理 SITGILL、SIGBUS 以 及 SIGSEGV 这 些 信号 ， 所 以 对 程序 运行 而 
言 ， 这 些 信号 可 能 会 造成 不 安全 。 


注 31: “” 哈 希 值 也 可 以 是 子 程序 引用 (这 应 该 是 比较 恰当 的 做 法 ) ， 但 本 书 不 会 谈 及 有 关 引 用 的 
话题 。 
注 32:; ”如 果 你 真 的 关心 Perl 是 如 何 处 置 的 ， 请 参阅 perlipc 文 档 。 
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习题 


以 下 习题 答案 参见 第 339 页 上 的 “第 十 六 章 习 题解 答 ” 一 节 : 


1. 


注 33: 


[6] 写 一 个 程序 ， 让 它 进 入 某 个 特定 (在 程序 内 写 死 ) 的 目录 ， 比 如 系统 根 目录 。 
然后 执行 -1 命令 获得 该 目录 内 的 长 格式 目录 列表 。 (如 果 你 使 用 非 Unix 的 系统 ， 
请 使 用 该 系统 上 相应 的 命令 来 取得 详细 的 目录 列表 。) 


[10] 修 改 前 面 的 程序 ， 让 它 将 命令 的 输出 送 到 当前 目录 下 的 63.ox 文 件 ， 错 误 输 出 则 
送 到 As.err 文 件 。 (请 不 必 对 结果 文件 为 空 的 情况 做 任何 特别 处 理 。) 


[8] 写 一 个 程序 ， 用 它 解析 date 命 令 的 输出 并 判断 今天 是 星期 几 。 如 果 是 工作 日 ， 输 


出 get to work， 否 则 输出 go _ play。date 命 令 的 输出 中 ， 星 期 一 是 用 Mon 来 表示 的 
[ 注 33] 。 如 果 你 使 用 非 Unix 系 统 因 而 没有 date 命 令 ， 那 就 做 一 个 假 的 小 程序 ， 只 

输出 像 date 命 令 的 输出 结果 即 可 。 如 果 你 保证 不 问 下 面 两 行 小 程序 的 原理 ， 我 们 就 
无 偿 奉 上 ， 


#17usz/bin/Vper1 
print localtjime( ) .“\n"; 


[15] ( 仅 限 于 Unix 系 统 ) 写 一 个 无 限 循 环 程序 ， 让 它 能 捕获 信号 并 报告 之 前 收 到 过 
该 信号 的 次 数 。 如 果 收 到 INT 信 号 就 退出 程序 。 如 果 可 以 在 命令 行使 用 Ki2 命 令 ， 可 
以 像 下 面 这 样 发 送 特定 信和 号: | 

$ kil1 -USR1 12345 
如 果 你 没 法 使 用 命令 行 工具 ki ， 那 就 写 一 个 辅助 程序 发 送信 号 。 实 际 上 用 Per 的 单 
行程 序 就 能 做 到 ， 

$ petrl -e'kill HUP => 12345， 


起 码 在 英语 环境 中 是 这 样 的 。 你 可 以 根据 你 的 系统 设 定 灵 活 调整 。 
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到 目前 为 止 ， 本 书 已 经 展现 了 Perl 语 言 的 核心 ， 也 就 是 每 个 Perl 用 户 都 需要 明白 的 东西 。 
然而 也 还 有 些 可 选 的 技术 ， 它 们 并 非 必 知 必 会 ， 不 过 仍 足 以 成 为 你 的 工具 箱 里 的 珍贵 工 
具 。 我 们 把 它们 当中 最 重要 的 那些 都 收编 在 这 一 章 里 。 读 完 本 章 后 ， 你 差不多 就 可 以 开 
始 阅读 《Intermediate Perl》 ， 进 入 Perl 学 习 的 下 一 个 阶段 。 


当然 别 被 这 一 章 的 标题 吓 到 了 ， 这 些 技术 并 非特 别 难 贱 。 我 们 所 谓 的 高 级 ， 其 实 只 是 从 
初学 者 的 角度 来 说 的 。 所 以 第 一 次 阅读 本 书 的 时 候 ， 为 了 尽快 使 用 Perl， 你 可 能 想 要 跳 
过 这 个 章节 ， 在 一 两 个 月 之 后 ， 为 了 更 多 了 解 Perl， 你 也 可 以 回头 再 学 。 就 把 这 一 章 想 
像 为 超级 脚注 好 了 [ 注 1 。 


切片 


我 们 往往 只 需要 处 理 列表 当中 的 少量 元 素 。 假 设 Bedrock 图 书馆 用 一 个 大 文件 来 存放 读者 信 
息 考 3 ， 文 件 中 的 每 一 行 都 描述 了 一 个 读者 ， 用 6 个 字段 〈 冒 号 作为 分 隔 符 ) 分 别 描述 读 
者 姓名 、 惜 书证 号 码 、 住 址 、 家 庭 电话 、 工 作 电话 和 当前 借阅 数量 。 文 件 内 容 类 似 于 ， 


fred flintstone:2168:301 Cobblestone Way:555-1212:555-21213:3 
barney YuUbble:709918:3128 GTranite Blvd:555-3333;555-3438:0 


图 书馆 的 某 个 应 用 程序 只 需要 借 书 证 号 码 和 借阅 数量 ， 不 关心 其 他 数据 。 所 以 可 以 这 样 

来 读 出 需要 的 两 个 字段 ， 

. 注 1: 我 们 丙 的 试图 把 这 种 超级 脚注 加 入 初稿 ， 但 被 O'Reilly 的 编辑 断然 拒绝 。 

注 2: 虽然 其 实 他 们 也 知道 应 该 用 功能 齐全 的 数据 库 而 非 平面 文件 (flat file)， 他 们 计划 好 
了 ， 下 个 冰河 期 一 到 ， 就 立马 升级 系统 。 
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while 《<$fh>) 
chomp; 
my Qitems = Split /:/; 
my($card_num，$count) =〈$items[1]，$items[5]); 
。 ## 现在 可 以 用 这 两 个 变量 来 继续 工作 
】} 


但 eitems 数 组 不 会 有 其 他 的 用 处 ， 看 来 是 一 种 浪费 [ 垃 31 。 也 许 用 一 组 标量 来 容纳 sp1Lit 
的 结果 会 更 好 些 ; 


my($name，4$card_num，$addr，$home，$work，$count) = Sp1 让 /7:7; 


好 的 ， 这 确实 避免 了 引入 导致 浪费 的 数组 ei tems， 但 我 们 现在 又 多 出 来 4 个 不 需要 的 标 
量 。 有 人 图 方便 ， 将 这 种 占 位 变量 命名 为 $dummy_ 1， 表示 他 们 并 不 关心 这 些 从 sp1lit 所 取 
得 的 元 素 。 但 Larry 觉 得 这 么 做 太 麻 烦 ， 因 此 他 引入 了 一 种 特殊 的 undef 写 法 。 如 果 被 赋 
值 的 列表 中 含有 undef 的 话 ， 就 干脆 忽略 源 列表 的 相应 元 素 ， 


my(undef，$card_num，undef，undef，undef，$count) = Split /3:/; 


这 不 是 更 好 么 ? 应 该 说 这 样 确实 避免 了 引入 不 需要 的 变量 ， 但 问题 是 要 弄 清 undef 的 数 
量 ， 才 能 正确 获取 $count。 而 且 如 果 列 表 元 素数 量 稍微 多 些 就 更 麻烦 了 。 若 要 获取 stat 
结果 中 的 mtime 值 则 必须 写 出 如 下 的 代码 : 
my(undef，undef，undef，undef，undef，undef， undef， 
undef，undef，4$mtime) = stat $some_filej 
如 果 弄 错 了 undef 的 数量 ， 就 可 能 获得 atime 或 者 ctime 的 值 ， 这 会 是 一 个 很 难 发 现 的 
bug。 更 好 的 办 法 是 : Perl 可 以 把 列表 当 作 数 组 ， 用 索引 取得 里 面 的 值 。 这 就 是 所 谓 的 列 
表 切 片 (jist slice) 。 本 例 中 ， 因 为 mtime 是 stat 返 回 的 列表 的 9 号 元 素 站 4 ， 我 们 可 以 
通过 下 标 数字 获取 数据 : 


my $mtime = (stat $some_file)[9]; 


这 里 stat 周 围 的 括号 是 必须 的 ， 因 为 需要 用 它们 产生 列表 上 下 文 。 如 果 你 像 下 面 这 样 
写 ， 就 不 会 正常 工作 ， 


my $mtime = stat($some file)[9]; # 语法 错误 ! 


注 3 其 实 也 并 非 很 大 的 浪费 ， 但 请 先 听 我 们 的 。 那 些 不 明白 切片 的 程序 员 仍 会 使 用 这 些 技 
本 ， 因 此 当 你 需要 处 理 别 人 的 代码 时 ， 在 此 全 部 看 一 遍 还 是 值得 的 。 

注 4; 其 实 是 第 10 个 元 素 ， 但 是 索引 号 是 数字 9， 站 这 和 数组 索引 
号 从 零 开 始 是 一 样 的 。 
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列表 切片 必须 在 一 对 圆 括号 引起 的 列表 后 面 有 一 个 由 方 括号 括 起 的 下 标 表 达 式 。 但 是 函 
数 为 引入 参数 而 使 用 的 圆 括号 不 算 。 


回 到 Bedrock 图 书馆 的 例子 ， 需 要 处 理 的 列表 是 sp1it 的 返回 值 。 我 们 可 以 用 切片 与 下 标 
取出 元 素 1 和 元 素 5: 


my 4card_num ， =〈《split /:/)[1]; 
my $count = (split /:/)[5]; 


像 这 样 的 标量 上 下 文 切片 〈 每 次 取 一 个 列表 元 素 ) 用 起 来 也 不 错 ， 但 是 如 果 能 避免 两 次 
调用 sp1it， 就 会 更 加 简单 和 高 效 。 因 此 让 我 们 在 列表 上 下 文中 使 用 列表 切片 一 次 取得 
两 个 值 ， 

my($card_num，$count) = (split /:/)f1，5]; 


上 面 的 索引 会 从 列表 里 取出 元 素 1 和 元 素 5， 将 其 返回 为 一 个 两 个 元 素 的 列表 。 然 后 我 们 
”把 结果 赋值 到 两 个 ny 变量 ， 这 恰好 是 我 们 所 期 望 的 : 一 次 切片 成 型 ， 并 轻松 对 两 个 变量 
赋值 。 


切片 常常 是 从 列表 中 读 取 少 量 数据 的 最 简单 方法 。 下 面 的 例子 中 ， 我 们 从 列表 中 取出 第 
一 个 和 最 后 一 个 元 素 ， 借 助 索 引 -1 代表 最 后 一 个 元 素 这 一 事实 [ 坦 5] ， 


my($first，$1ast) = 〈(sort @names)[0，-1]; 


切片 的 下 标 可 以 是 任意 顺序 的 ， 也 可 以 重复 。 下 面 这 个 例子 从 10 个 元 素 的 列表 中 找 出 5 
个 元 素 : 
my @names = qw{ zero one two three four five 0 eight nine }; 


my @numbers = ( @names )[ 9，0，2，1，0 ]; 
print“"8Bedrock @numbers\n"; # 打印 ， Bedrock nine zero two one zero 


数组 切片 
前 面 的 例子 还 可 以 进一步 简化 。 在 从 数组 〈 而 不 是 从 列表 ) 切 出 元 素 时 ， 圆 括号 并 非 必 
需 的 。 所 以 我 们 可 以 这 样 进行 切片 : 

my @nunmberzs = @names[ 9，0，2，1，0 ]; 


这 不 单 是 省 略 圆 括号 ， 其 实 是 一 种 访问 数组 元 素 的 不 同 写 法 : 数组 切片 (array slice)。 我 
们 曾经 在 第 三 章 中 提 到 @names 前 面 的 @ 符 号 表示 “所 有 元 素 ”。 其 实 从 语言 学 角度 来 看 ， 





注 $: 用 排序 方法 找 最 大 /最 小 值 并 非 最 有 歼 的 ， 但 是 Perl 的 排序 还 是 非常 高 效 的 ， 对 元 素数 
量 不 超过 三 位 数 的 列表 来 说 是 可 以 接受 的 。 
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它 更 像 是 一 种 复数 标志 ， 非 常 类 似 英文 “cats” 和 “dogs” 后 面 的 字母 “s”。 在 Perl 中 
符号 意味 着 一 个 东西 ， 而 @ 符 号 意味 着 一 组 东西 。 


切片 总 是 一 个 列表 ， 所 以 数组 切片 总 是 使 用 一 个 8 符号 来 标识 。 当 你 看 见 类 似 @ 
names[...] 之 类 的 写法 时 ， 需 要 以 Perl 的 习惯 来 看 开头 的 符号 和 结尾 的 方 括号 。 方 插 号 
意味 着 你 要 检索 数组 成 员 ，8@ 符 号 则 意味 着 获取 的 是 整个 列表 |[ 注 4] ， 而 4 符号 意味 着 获 
取 单个 元 素 。 请 参考 图 17-1。 


01e eljement 


4names [ ...] 


他 om 0n Orr0Y 


Onhames [.,,] 





gl1istofejemments 


图 17-1: 数组 切片 和 单个 元 素 的 区 别 


变量 引用 之 前 的 标点 符号 (4 或 @ 符 号) 决定 了 下 标 表达 式 的 上 下 文 。 如 果 前 面 有 个 $ 符 
号 ， 下 标 表 达 式 就 会 在 标量 上 下 文中 求 得 索引 值 。 但 如 果 之 前 有 个 @ 符 号 的 话 ， 下 标 表达 
式 就 会 在 列表 上 下 文中 计算 ， 从 而 得 到 索引 列表 。 


所 以 这 里 看 到 的 enames[2,5] 和 ($names[2],$names[5]) 代 表 同 样 的 列表 。 因 此 如 果 你 希 
望 得 到 值 列表 ， 就 可 以 用 数组 切片 的 写法 。 任 何 需 要 列表 的 地 方 都 可 以 替换 成 更 简单 的 
数组 切片 。 和 


但 有 一 个 切片 可 以 工作 ， 列 表 却 不 能 的 场合 。 那 就 是 切片 可 以 被 直接 内 插 到 字符 串 中 
去 : 


my @names = qw{ zero one two three fouxz five six seven eight nine }; 
print “Bedrock @names[ 9，0，2，1，0 ]\n"; 


如 果 我 们 想 要 内 播 enames， 就 会 得 到 数组 所 有 成 员 构成 的 字符 串 ， 元 素 之 间 用 空格 隔 
开 。 如 果 我 们 要 内 插 的 是 enames[9,0,2,1,0]， 就 会 得 到 指定 数组 元 素 构成 的 字符 串 ， 同 


注 6: 当然 我 们 说 到 整个 列表 的 时 候 ， 并 不 是 意味 着 必须 要 有 多 于 一 个 的 元 素 ， 上 毕竟 列表 也 可 
以 为 空 。 
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样 用 空格 隔 开 [?1 。 让 我 们 回 到 Bedrock 图 书馆 的 例子 ， 假 设 我 们 的 程序 需要 修改 读者 
Slate 先 生 的 地 址 和 电话 号 码 ， 因 为 他 刚刚 所 到 了 Hollyrock 山 庄 的 某 间 大 房子 。 如 果 我 们 
得 到 了 一 个 存 有 关于 他 的 信息 列表 的 @items， 那 么 就 可 以 按 如 下 方式 简单 地 修改 数组 中 
的 那 两 个 元 素 : 

my $new_home_phone = "555-6099"; 

my $new_ address = "99380 Red Rock West"; 

@items[2，3] = ($new_address，$new_home_phone)j 
和 前 面 一 样 ， 数 组 切片 可 以 用 更 简洁 的 方式 来 表示 一 系列 元 素 。 在 这 个 例子 里 ， 最 后 一 
行程 序 代码 其 实 就 是 赋值 给 ($items[2],$items[3])， 但 更 简洁 高 效 。 


哈 希 切片 ， 

和 数组 切片 相似 ， 也 可 以 用 哈 希 切片 (pasp slice) 的 方式 从 哈 希 里 切 出 一 些 元素 。 还 记 
得 三 个 选手 的 保龄球 积分 么 ? 它们 存放 在 哈 希 %score 中 。 我 们 可 以 用 哈 希 元 素 所 构成 的 
列表 来 取出 这 些 积 分 ， 或 是 使 用 切片 。 这 两 个 技巧 实际 的 效果 相当 ， 但 第 二 种 做 法 更 加 
简洁 高 效 : 


my @three_scores = ($scoref barney"}，$scoref{ "fred"}，$scoref "dino"}); 


my @three_scores = @score{f quw/ barney fred dino/ }; 


切片 一 定 是 列表 ， 因 此 哈 希 切片 也 是 用 @ 符 号 来 表示 。 不 管 你 是 否认 为 我 们 罗 嗪 ， 我 们 
就 是 想 强调 哈 希 切片 和 数组 切片 是 类 似 的 。 如 果 Perl 程 序 中 看 到 类 似 6s coxref...} 这 样 
的 写法 ， 你 需要 以 Per]l 的 习惯 来 看 开头 的 符号 和 结尾 的 花 括 号 。 花 括号 意味 着 你 要 检索 
哈 希 成 员 ，@ 符 号 意味 着 获取 的 是 整个 列表 ， 而 美元 符号 代表 的 是 单个 元 素 。 请 参考 图 
17-2。 


如 同 我 们 在 数组 切片 中 所 见 的 ， 变 量 前 置 的 标点 符号 〈 可 能 是 美元 符号 或 6 符号) 决定 
了 下 标 表达 式 的 上 下 文 。 如 果 前 置 美元 符号 ， 下 标 表达 式 就 会 在 标量 上 下 文中 运算 并 返 
回 单一 键 值 | 注 81 。 但 如 果 前 置 @ 符 号 ， 下 标 表达 式 就 会 在 列表 上 下 文中 运算 并 返回 一 个 
键 值 列 表 。 


注 7: 更 准确 地 说 ， 列 表 的 这 些 元 素 会 被 Perl 内 置 的 $" 变 量 的 内 容 填充 ， 而 它 的 默认 值 就 是 空 
帮 。 这 一 般 不 应 改变 。 在 内 揪 时 ，Perl 实 际 上 会 执行 join $",@list， 而 @list 就 代表 那个 
列表 表达 式 。 

注 8; 有 一 个 例外 ， 但 很 难 碰 到 ， 因 为 如 今 的 Perl 程 序 中 很 少 使 用 它 。 条 见 perivar 文 档 中 关于 
$; 的 部 分 。 
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天 -一 


One elemment 
4score { ...} 
Ho1m gash 


@score { ,..} 


jstofelements 








图 17-2， 恰 希 切 片 和 单个 元 素 的 区 别 


这 里 自然 会 有 人 问 ， 为 什么 提 到 哈 希 时 并 没有 用 百分比 符号 〈%) ? 因为 百分比 符号 表 
示 整 个 哈 希 ， 哈 希 切片 (就 像 其 他 切片 ) 一 定 是 列表 而 不 是 哈 希 [ 广 ?] 。 在 Perl 中 ， 美 元 
符号 代表 单个 东西 ， 但 @ 符 号 则 代表 一 组 东西 ， 而 百分比 符号 代表 一 整个 哈 希 。 


如 同 我 们 在 数组 切片 中 所 见 的 ， 在 Perl 的 任何 地 方 ， 你 都 可 以 使 用 哈 希 切片 来 代表 哈 希 
里 相应 的 元 素 。 因 此 下 面 的 程序 可 以 将 这 些 选 手 的 保龄球 分 数 存 人 哈 希 ， 不 必 担 心意 外 
修改 哈 希 中 的 其 他 元 素 : 

my @p1layers = 设 barney fred dino /; 

my @bowJing_scores =〈195，205，30); 

@score{f @players } = 6@bowling_scoresj 
最 后 一 和 0 $scoref "fred"]， 4$scoref dino ]) 这 个 
有 具有 三 个 元 素 的 列表 进 和 了 赋值 。 


哈 希 切片 也 可 以 被 内 播 进 字符 串 。 下 面 的 例子 会 输出 我 们 喜欢 的 保龄球 选手 的 积分 : 


print "Tonight's playerSs WeTe; @players\n" 
pTint“Their scores were: 6@score{f@playersj}N\n”; 


捕获 错误 


程序 写 出 来 往往 会 磁 到 各 种 意外 ， 甚 至 无 法 正常 工作 ， 我 们 希望 能 在 程序 停止 运行 前 知 
道 究 竟 是 什么 原因 导致 的 。 其 实 ， 对 错误 的 处 理 是 编程 工作 中 不 可 或 缺 的 重头 戏 ， 虽 然 
有 关 这 方面 我 们 可 以 写 上 整整 一 本 书 ， 不 过 这 里 作为 入 门 ， 还 是 先 作 一 些 粗略 的 介绍 。 
如 果 有 兴趣 ， 可 以 阅读 本 系列 的 第 三 本 书 人 Perl》 ， 我 们 会 对 Perl 里 面 的 错 
误 处 理 作 更 为 深入 的 立 释 。 


注 9: 输送 切片 是 一 个 切片 而 非 哈 希 ， 如 同 炉 火 是 指 火 而 非 炉 ， 而 火炉 是 指 炉 而 非 火 。 
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用 eval 
有 时 者 上 去 平淡 无 奇 的 代码 却 能 在 程序 中 导致 严重 错误 。 以 下 这 些 比较 典型 的 错误 语句 
都 能 让 程序 崩溃 ， 

my $barney = $fred / $dino; ## 除 零 错误 ? 


my $uilma =“[abc'; 
print ”match\n” if /\A($wilma)/; # 非法 的 正则 表达 式 错误 ? 


open my $caveman，'"'“ ，$fred # 用 户 提供 的 数据 错误 ? 
or die“"Can't open file“$fred” for input: $; 
你 可 能 会 制造 一 些 状 况 或 找 出 其 中 某 些 错误 ， 然 而 这 种 方式 很 难 找 出 所 有 错误 。 比 如 上 面 
的 例子 中 ， 你 要 如 何 检查 字符 串 和 ilma 才 能 确保 它 引 入 的 正则 表达 式 合法 呢 注 ! ? 好 在 
Per 提供 了 简单 的 方式 来 捕获 代码 运行 时 可 能 出 现 的 严重 错误 ， 即 把 代码 包 圳 在 eva] 块 里 ; 


eval { $barzney = $fred / $dino j; 


现在 即使 $dino 是 零 ， 这 一 行 代码 也 不 至 于 让 程序 贿 汪 。 只 要 eval 发 现在 它 的 监察 范围 内 
出 现 致 命 错误 ， 就 会 立即 停止 运行 整个 块 ， 退 出 后 继续 运行 其 余 的 代码 。 注 意 ，eval 块 
的 末尾 有 一 个 分 号 。 实 际 上 ，eval 只 是 一 个 表达 式 ， 而 不 是 类 似 于 while 或 foreach 那 样 
的 控制 结构 。 所 以 在 要 监察 的 语句 块 末尾 必须 写 上 分 号 。 


eval 的 返回 值 就 是 语句 块 中 最 后 一 条 表达 式 的 执行 结果 ， 这 一 点 和 子 程序 相同 。 所 以 ， 
我 们 可 以 把 语句 块 最 后 的 $barney 从 eval 里 拿 出 来 ， 将 eval1 的 运行 结果 赋值 给 它 。 这 样 ， 
$barney 变 量 的 声明 就 位 于 eval 外 部 ， 便 于 后 续 使 用 ， 


my $barzney = eval { $fred / $dino } 
如 果 eval 捕 获 到 了 错误 ， 那 么 整个 语句 块 将 返回 undef。 所 以 ， 你 可 以 利用 定义 或 操作 符 
对 最 终 的 变量 设 定 默认 值 ， 比 如 NaN〈 表 示 “Not a Number”， 非 数字 ) ， 


use 5.010; 
my $bazney = eval { $fred / $dino } // “NaN'; 


当 运 行 eval 块 的 期 间 出 现 致 命 错误 时 ， 停 下 来 的 只 是 这 个 语句 块 ， 整 个 程序 不 会 崩溃 。 


当 eval 结 束 时 ， 我 们 需要 判断 它 是 否 正常 退出 或 是 否 捕获 到 严重 错误 。 如 果 捕 获 到 错 
误 ，eval 会 返回 undef， 并 且 在 特殊 变量 4@ 中 设置 错误 消息 ， 比 如 :Illegal division 
by zeroat my_program line 12。 如 果 没 有 错误 发 生 ，$46 就 是 空 的 。 当 然 ， 这 时 候 通 过 
检查 和 @ 取 值 的 真 假 就 可 以 判断 是 否 有 错误 发 生 。 所 以 ， 我 们 常常 会 看 到 eval1 语 名 块 之 后 


注 10: “要 检查 正则 表达 式 是 否 合法 其 实 很 简单 ， 不 过 我 们 还 没 介绍 相关 工具 。 请 参阅 
《Intermediate Perl》 一 书 中 关于 正则 表达 式 对 象 的 章节 。 
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立即 跟 上 这 样 一段 检 测 代码 


Use 5.010; 
my $bazney = eval { $fred / $dino } VANaN'; 
print "I couldn't divide by \$dino: $4@"” 诗 和 j; 
也 可 以 通过 检查 返回 值 来 判断 ， 只 要 正常 工作 时 能 返回 真 值 就 可 以 了 。 不 过 ， 其 实 你 最 
好 用 下 面 这 种 写法 ， 如 果 可 以 的 话 : 
unless( eval { $fred / $dino } ) ({ 


print "I couldn't divide by \$dino: 4$@”jf 46; 
】} 


有 时 候 你 想 测 试 的 部 分 即使 成 功 也 并 没有 什么 有 意义 的 返回 值 ， 所 以 得 另外 构造 一 个 有 返 
回 值 的 代码 块 。 如 果 eval 捕 获 到 了 错误 ， 就 不 会 执行 最 后 一 条 语句 ， 本 例 中 也 就 是 1， 
unless( eval { some_sub(); 1 } ) { 
pzrint "I couldn't divide by \$dino: $@”jif 4$6; 
】} 
在 列表 上 下 文中 ， 捕 获 到 错误 的 eval1 会 返回 空 列表 。 下 面 这 行 中 ， 如 果 eval 失 败 的 话 ，@ 
averages 最 终 只 会 得 到 两 个 元 素 ， 因 为 eval 返 回 的 是 空 列表 ， 等 于 不 存在 ; 


my @averages =〈 2/3， eval { $fred / $dino }，2277 ); 


eva] 块 和 其 他 语句 块 一 样 ， 所 以 可 以 设 定 词法 (my) 变 量 的 新 作用 域 ， 并 且 块 内 的 语句 数目 不 
限 ， 只 要 你 需要 ， 多 少 都 可 以 。 比 如 下 面 这 个 eval 块 对 多 处 潜在 的 致命 错误 作 了 事先 防范 


foreach my $person (q/ fred Wilma betty barney dino pebbles /) 
eval { 
open my $fh，”“` ，$pezson 
or die "Can't open file “$person :; $!”; 


my($total，$count ); 


while (<$fh>) { 
$total += $ ; 
$count++; 


】 


my $avexrage = $total/$count; 
print “Average for file $person Was $averageNn ”; 


8do_something($person， $average); 
if ($) { 
print “An erTor 0ccUTred (4@)，continuing\n"; 


】 
】} 
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这 段 程序 中 的 eva1 能 捕获 多 少 错误 ?. 如 果 打开 文件 时 出 错 ， 你 会 气 到 它 。 计 算 平均 什 
的 时 候 如 果 除 以 零 ， 也 会 被 扎 到 ， 不 会 使 你 的 程序 过 早 结束 。eval 还 保护 对 神秘 的 名 
为 8do_something 的 子 程序 的 调用 ， 不 管 里 面 在 做 什么 ， 只 要 出 现 致 命 错误 ， 一 样 会 捉 
到 。 这 个 功能 非常 贴心 ， 我 们 常常 会 用 到 其 他 人 号 的 子 程序 ， 对 于 内 部 细节 完全 没有 概 
念 ， 但 又 不 想 因为 它 而 导致 程序 崩溃 。 有 些 人 故意 使 用 die 抛 出 错误 消息 ， 因 为 他 们 期 竺 
外 部 使 用 者 通过 eva] 捕 获 错误 并 做 适当 处 理 。 这 部 分 内 容 我 们 马上 就 会 介绍 。 


如 果 在 处 理 foreach 提 供 的 列表 中 的 某 个 文件 时 发 生 错误 ， 你 会 得 到 错误 消息 ， 但 程序 
会 继续 处 理 下 一 个 文件 而 没有 更 多 的 抱怨 。 


你 还 可 以 把 eval 块 写 在 另 一 个 eval 块 里 面 代 套 ，Perl 不 会 被 搞 糊 涂 的 。 内 层 的 eval 负 责 
捕获 它 自己 块 中 的 错误 ， 丰 会 把 错误 泄露 到 外 层 块 中 。 当 然 ， 在 内 层 eval1 执 行 完毕 后 ， 
如 果 它 捉 到 错误 并 用 die 报 告 的 话 ， 外 层 的 eval 就 会 所 到 这 个 错误 报告 。 我 们 可 以 修改 上 
面 的 代码 ， 把 除 零 错误 放 在 内 层 块 中 单独 捕获 


foreach my $person (qw/ fred Wilma betty barzney dino pebbjles /) { 
eval { 


open my $fh， "< " ，$peITson 
”or die "Can't open file “"$person : $I”; 


my($total，$count); 


while (<$fh>) { 
$total += $ 3; 


$count++; 


】 


my $average = eval { $total/$count } // “NaN'; # 内 层 eval 
print “Avezage for file $person Was $averageN\n ; 


8&do_something($person，$aveTage); 


上 
诗 (4@) { 


print "An error 0Ccurred (4@)，continujing\n 
} 
】} 


总 共有 4 种 类 型 的 错误 是 eva1 无 法 捕获 的 。 第 一 种 是 出 现在 源 代码 中 的 语法 错误 ， 比 如 
没有 匹配 的 引号 ， 忘 写 分 号 ， 漏 写 操作 符 ， 或 者 非法 的 正则 表达 式 等 等 ， 


eval { 
print “There is a mismatched quote ; 
my $sum = 42 +j 
/[abcy/ 
print “Final output\n”; 


】 
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ee 的 编译 器 会 在 解析 源 代 码 时 捕获 这 类 错误 并 在 运行 程序 前 停 下 来 。 而 eva 1 仅 
能 捕获 Perl 运 行 时 出 现 的 错误 。 


第 二 种 是 让 Per 解释 器 本 身 崩溃 的 错误 ， 比 如 内 存 溢出 或 者 收 到 无 法 接管 的 信号 。 这 类 
错误 会 让 per! 解 释 器 意外 终止 运行 ， 既 然 它 已 经 退出 运行 了 ， 自 然 无 法 用 eval 捕 获 。 如 
果 对 此 感 兴趣 ， 请 参阅 Peridiag 文 档 中 前 面 有 (X) 代 码 的 错误 清单 。 


第 三 种 eval 块 无 法 捕获 的 错误 是 警告 ， 不 管 是 由 用 户 发 出 的 〈 通 过 warn 函 数 ) ， 还 是 Perl 
自己 内 部 发 出 的 〈 通 过 打开 -w 这 个 命令 行 选项 ， 或 者 使 用 use_ warnings 编 译 指令 ) 。 要 
让 eval 捕 获 警 告 有 专门 的 一 套 机 制 ， 请 参考 Per 文档 中 _WARN_” 伪 信号 相关 的 内 容 。 


最 后 一 种 错误 其 实 也 不 算是 错误 ， 不 过 放 在 这 里 提 一 下 比较 好 。exit 操 作 符 会 立即 终止 
程序 运行 ， 就 算 你 从 eval 块 内 的 子 程序 来 调用 它 。 我 们 每 次 调用 ex it 的 时 候 ， 就 是 希望 
它 立 即 让 程序 停止 运行 ， 这 这 可 没什么 好 多 考虑 的 ， 自 然 eval 也 不 会 阻止 你 这 样 做 。 


这 里 ， 我 们 还 要 提醒 一 下 使 用 eval1 不 当 而 造成 危险 的 情况 。 实 际 上 ， 你 经 常会 听 别 人 
说 ， 为 了 安全 不 要 在 程序 里 用 eval。 从 某 种 意义 上 说 ， 他 们 的 意见 是 正确 的 ， 只 有 在 相 
当 关 注 安 全 时 ， 才 应 该 使 用 eval。 不 过 其 实 他 们 所 说 的 只 是 eval 语 句 的 另 一 种 用 法 ， 即 
称 为 “eval 字 符 串 ”的 用 法 。 这 种 形式 的 eva1 会 把 拿 来 的 字符 串 直 接 当 作 Perl 源 代码 编 
译 ， 然 后 执行 ， 这 就 好 比 你 手工 在 程序 里 面 融 上 这 段 代码 。 请 看 下 面 的 例子 ， 任 何 出 现 
在 字符 串 中 的 东西 都 会 被 当 作 Perl 代 码 来 解释 执行 


my $operator = onlink 
eval “$operator \@files;”; 


如 果 关 键 字 eva 1 后 面 紧 跟 的 是 花 括号 围 起 来 的 代码 块 ， 正 关 合作 作 大 业 网 苹 才 村， 就 





无 需 担心 一 一 那 是 安全 的 eval 用 法 。 
更 为 高 级 的 错误 处 理 


二 不 过 普遍 都 有 一 个 叫做 异常 (excepiiom) 的 
概念 。 有 具体 来 说 ， 就 是 尝试 运行 某 段 程序 ， 如 果 出 现 错误 就 抛 出 (throw) 异常 ， 然 后 等 
待 后 续 负 责 捕 获 | 这 类 异常 的 代码 做 相应 处 理 。 在 Perl 里 面 最 基本 的 做 法 是 ， 用 
die 抛 出 异常 ， 然 后 用 eval 捕 获 异 常 。 我 们 可 以 通过 识别 保存 在 4 里面 的 错误 消息 判断 究 
竞 出 了 什么 问题 : 
eval { 
die whAn unexpected exceptjon message” if $unexpected; 


die “Bad denomjinator”jif 4$dino == 0; 
$barney = $fred / 4dinoj 
】} 
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证 ( 四 =” /unexpected/ ) 工 


和 


】} 
elsif( $@ => /denominator/ ) {f 


[汪汪 


】 


不 过 这 类 代码 有 诸多 坏 端 ， 最 明显 的 就 是 96 变量 的 动态 作用 域 问题 了 。 简 单 来 说 ， 由 于 
46@ 是 一 个 特殊 变量 ， 而 你 所 写 的 eval 也 许 会 被 包含 在 另 一 个 高 层 的 eval 里 面 (很 有 可 能 
你 对 此 一 无 所 知 ) ， 那 就 需要 确保 这 里 出 现 的 错误 不 干扰 高 层 出 现 的 错误 ， 


{ 
1ocal 和 $6; # 不 干扰 高 层 错误 
eval { 


die "An unexpected exception meSssage”jf $unexpected; 
die "Bad denominator” if $dino == 0; 
$barney = $fred / $dino; 


)】 - 
计 (4 => /unexpected/ ) 【f 


[全 全 


】} 
elsif( 4 =>* /denominator/ ) { 


芭 到 和 1 


】 
} 。 
这 还 不 是 全 部 ， 像 这 样 比较 微妙 的 问题 很 容易 导致 错误 。Try: :Tiny 模 块 帮 你 解决 大 部 
分 这 类 问题 (如果 你 想 了 解 到 底 有 哪些 问题 ， 请 参阅 它 的 文档 ) 。 该 模块 并 未 包含 在 标 
准 模块 库 当 中 ， 所 以 你 得 自己 从 CPAN 下 载 安装 星 ] 。 最 基本 的 用 法 如 下 所 示 ， 


use TIY::Tinyj 


catch { 
...; # 某 些 处理 异 常 的 代码 
】} 


finally 1 


[全 人 


} 
这 里 try 的 作用 就 好 比 是 之 前 看 到 的 eval 语 句 。 只 有 当 出 现 错误 时 ， 才 会 运行 该 结构 中 
catch 块 的 部 分 。 并 且 ， 不 管 是 否 出 错 ， 最 终 都 会 运行 final1y 块 中 的 内 容 ， 以 便 实 施 清 
理工 作 。 其 实 我 们 也 可 以 省 略 catch 或 finajly 块 ， 单 单 用 try 直 接 忽 略 出 现 的 错误 : 





注 1: 请 访问 Pip:Wsearch.cpan.org/distTy7y-Tiny。 
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my $barney = try { $fred / $dqino }; 
我 们 可 以 用 catch 处 理 错误 。 为 了 避免 干扰 由 ，Tzy::Tiny 把 错误 消息 放 到 了 软 认 变量 $_ 
里 。 当 然 ， 你 还 是 能 够 访问 4 的， 只 不 过 我 们 用 Try: :Tiny 的 目的 之 一 就 是 要 规避 4@ 带 来 
的 潜在 干扰 ， 
Use 5.010; 
my $barney = 
try { $fred / $dino } 
Catch { 
Say "ETror Was $_"; # 不 用 和 
]}; 
不 管 有 错 没 错 ， 都 会 运行 finally 块 里 的 代码 。 如 果 @_ 中 有 参数 内 容 ， 就 说 明之 前 出 现 错 
误 : 
Use 5.010; 
my $barney = 
try{ $fred / $dino } 
catch { 
say "ETYor Was $_"; # 不 用 4 
】 
finally { 


say @_? “'There was an erITOT'”: “Everything worked ; 


] 


autodie 


从 5.10.1 版 起 ，Perl 自 带 autodie 编 译 指令 ， 我 们 可 以 在 程序 中 让 它 负 责 自动 抛 出 异常 。 
本 书 绝 大 部 分 示例 中 ， 都 是 在 open 打 开 文 件 句柄 时 用 die 检 查 是 否 发 生 错 误 ， 


Open my $fh， > ，$fjilename o7 
die “Couldn't open $filename for WIiting: $l ”; 


它 本 身 看 起 来 并 没 问题 ， 不 过 ， 我 们 真 的 需要 每 次 用 open 的 时 候 都 反复 检查 吗 ? 其 他 和 
操作 系统 交互 的 内 置 函 数 要 是 也 失败 了 呢 ? 其 实 ， 我 们 不 用 每 次 都 麻烦 地 写 上 一 句 “o7 
die...”， 让 autodie 自 动 帮 你 加 上 去 好 了 : 


Use autodie; 
open my $fh， > ，$filename; # 仍 担 会 在 错误 发 生 时 调用 die 函 数 
如 果 打 开 操 作 失 败 ， 你 会 得 到 一 条 错误 消息 ， 内 容 正 如 我 们 原来 构造 的 那样 ; 


Can't open “/does/Vnot/exist” for Writing: “No such fjile or directory” 
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autodie 模 块 黑 认 会 对 一 系列 Per 内置 的 用 于 处 理 文件 、 文 件 句柄 、 进 程 间 通 信和 套 接 字 
的 函数 自动 施行 监管 。 不 过 你 也 可 以 自行 指定 需要 施行 auto die 监 管 的 操作 符 ， 方 法 是 
在 导入 列表 中 指定 考 ?] ， 


use autodje qu( open system :socket ); 


当 autodie 抛 出 错误 时 ， 它 会 把 一 个 autodie: :exception 对 象 放 到 $6@ 变 量 中 ， 我 们 稍 后 就 
可 以 通过 这 个 对 象 提取 捕获 的 错误 类 型 。 下 面 的 例子 取 自 Paul Fenwick 的 autodie 文 档 ， 
使 用 given-when 结 构 判别 错误 类 型 ， 


use 5.010; 
open my $fh， '>'"，$filename; # 仍旧 会 在 错误 发 生 时 调用 die 函数 
given (3@) { 


When (undef)  { say "No error"; } 
When (open ') { say“Error from open"; } 
When ( :io")  {f say "Non-open，IO error."; . } 
When ( :all') { say "Al1 other autodie errors.”" 】 
default { say "Not an autodie error at all.”} 


你 也 可 以 让 autodie 和 Try: :Tiny 一 起 协作 : 
use 5.010j 


Use autodie; 
Use Try::Tiny; 


try { 
open my $fh， ">'，$filename; # 仍旧 会 在 错误 发 生 时 启用 die 命令 
】} 


catch { 
when( “open ) { say "Got an open erxzor” } 


有 


用 grep 筛 选 列表 


有 时 候 你 可 能 希望 选 出 列表 中 的 部 分 成 员 ， 比 如 选 出 奇数 ， 或 者 筛选 文件 中 提 到 了 Fred 
的 行 。 在 这 一 节 你 会 看 到 ， 其 实 列表 中 的 那些 元 素 只 需要 用 grep 操 作 符 即 可 科 选 出 来 。 


让 我 们 先 试 试 解决 第 一 个 问题 ， 从 一 大 堆 数字 中 挑 出 奇数 。 不 需 引入 任何 新 技术 ， 我 们 
可 以 这 样 写 ; 


my @odd_numbers ; 





注 2: 有 关 模 块 导 入 列表 的 详细 说 明 ， 请 参 阅 《Intermediate Perl》 一 书 。 
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foreach (1..1000) { 
push @odd_numbers，$ jif $ % 2; 
】} 
这 段 代 码 用 了 取 模 操作 符 (%) ， 我 们 之 前 在 第 二 章 介绍 过 这 个 操作 符 。 如 果 某 个 数 是 
偶数 ， 那 么 这 个 数 除 以 2 的 余数 就 是 0， 也 就 是 假 。 0 也 就 是 真 ， 因 此 只 
有 奇数 会 被 push 到 数组 Bodd_numbers 中 。， 


其 实 这 段 代码 并 没什么 问题 ， 只 是 不 够 简练 高 效 。 取 然 Pen 提供 了 grep 操 作 符 ， 何不 用 - 
它 实 现 过 让 器 的 功能 


my @odd_numbers = grep { $_ % 2 } 1..1000; 


这 么 简短 的 代码 得 到 的 是 一 个 包含 500 个 奇数 的 列表 。 它 是 如 何 做 到 的 呢 ? grep 的 第 一 
个 参数 是 代码 块 ， 使 用 $_ 作 为 列表 的 每 个 元 素 的 占 位 符 并 返回 真 或 假 值 。 而 代码 块 之 后 
的 参数 则 是 将 要 被 科 选 的 元 素 列表 。grep 操 作 符 对 列表 的 每 个 元 素 算出 代码 块 的 值 ， 好 
像 之 前 版 本 的 foreach 循 环 做 的 那样 。 代 码 块 计算 结果 为 逻辑 真 的 那些 元 素 ， 将 会 出 现在 
grep 返 回 的 列表 中 。 


在 grep 运 行 过 程 中 ，$ _ 会 轮流 成 为 列表 中 每 个 元 素 的 别名 。 这 和 之 前 看 到 的 foreach 循 环 
是 一 样 的 。 因 此 如 果 在 grep 表 达 式 中 修改 $_ 的 内 容 通常 不 是 好 主意 ， 因 为 会 破坏 原始 数 
据 。 


grep 操 作 符 和 经 典 Unix 工 具 同 名 ， 这 个 工具 会 使 用 正则 表达 式 来 从 文件 中 找 出 匹配 成 功 
的 行 。 这 个 任务 也 能 用 Perl 的 grep 完 成 ， 并 且 威 力 更 强大 些 。 现在 我 们 从 一 个 文件 中 取 
出 包含 fred 的 行 

my @matching_lines = grep { /\bfred\b/i } “<$fh>; 


grep 还 有 一 个 更 为 简单 的 写法 。 如 果 选 择 器 (selector) 需 要 的 只 是 一 个 简单 的 表达 式 (而 
不 是 整个 代码 块 ) ， 那 么 只 要 在 这 个 表达 式 后 面 用 逗号 结束 就 可 以 了 。 下 面 就 是 刚才 例 
子 的 简化 版 本 ，; 


my @matching_lines = grep /\bfred\b/i，《<$fh>; 


grep 操 作 符 在 标量 上 下 文中 返回 的 是 符合 过 站 条 件 的 元 素 个 数 。 在 只 ee 
合 特定 条 件 的 行 的 数量 而 不 必 关 心 每 行内 容 的 时 候 ， 人 原本 我 们 会 
提取 符合 条 件 的 行 存 到 ematching_lines 数 组 ， 再 行 统计 : 


my @matching_lines = grep /\bfred\b/i，<$fh>; 
my $line_count = @matching_lines; 
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现在 完全 可 以 跳 过 保存 中 间 数 组 的 过 程 (也 就 不 必 创建 数组 并 分 配 内 存 ) ， 直 接 通过 标 
量 赋值 操作 实现 : 


my $Liine_count = grep /bfred\b/E，《<$fh>; 


用 map 把 列表 元 素 变形 


除了 作为 过 汪 器 之 外 ， 对 于 列表 还 有 一 项 经 常 要 做 的 工作 ， 那 就 是 把 列表 数据 变形 。 
举 个 例子 ， 假 设 有 一 堆 数字 需要 格式 化 成 “金额 数字 ”输出 ， 就 像 第 十 三 章 里 面 ‰bi8g_ 
money 子 程序 的 做 法 那样 。 你 不 应 该 修改 原始 数据 ， 你 需要 的 是 用 于 输出 的 修改 后 的 列表 
拷贝 。 下 面 是 传统 做 法 : 


my 6@data = (4.75，1.5，2，1234，6. 9456， 12345678.9，29.95); 
my @formatted_data; 


foreach (@data) { 
push @formatted_data，8&big_money($_); 


这 段 代码 和 grep 那 节 开头 的 代码 看 起 来 很 像 ， 不 是 么 ? 所 以 ， 如 果 把 它 改写 成 类 似 grep 
版 本 的 应 该 不 会 太 令 人 惊奇 


my @data = 〈(4.75，1.5，2，1234，6,9456，12345678.9，29.95); 


my @formatted data = map { &big_money($_) edataj 


map 操 作 符 和 grep 非 常 相似 ， 因 为 它们 有 同样 的 参数 : 一 个 使 用 $_ 的 代码 块 和 一 个 待 处 理 
的 列表 。 而 且 它 们 的 工作 方式 也 非常 相似 ， 都 会 将 $_ 设 成 列表 每 个 元 素 的 别名 并 且 逐 个 为 
它们 执行 代码 块 。 但 map 使 用 代码 块 中 最 后 一 个 表达 式 的 方式 和 grep 不 同 ， 它 返回 的 不 是 
有 逻 辑 真 假 值 ， 而 是 该 表达 式 的 实际 计算 结果 ， 最 终 返 回 一 系列 这 样 的 结果 组 成 的 列表 。 另 
一 个 重要 差别 是 ， 人 所 以 每 次 可 以 返回 一 个 以 
上 的 元 素 。 


任何 形式 的 grep 或 map 语 名 都 可 以 改写 成 foreach 循 环 ， 但 中 间 需 要 借助 临时 数组 保存 数 
据 。 而 实际 上 ， 简 短 版 本 更 为 高 效 ， 写 起 来 也 更 方便 。 由 于 map 或 gfep 返 回 的 结果 是 列 
表 ， 所 以 可 以 直接 把 结果 传递 给 其 他 函数 作为 参数 。 下 面 的 例子 就 是 在 标题 行 之 后 ， 每 
行 打印 一 个 “金额 数字 ”的 做 法 ， 


Print“The money numbers are:l\n”， 
map { sprintf("%25sS\n"，$ ) } 6@formatted data; 


当然 ， 实 际 上 不 用 临时 数组 6formatted_data 也 行 ， 直 接 从 原始 数据 计算 : 


my @data = (4.75，1.5，2，1234，6.9456，12345678.9，29.95); 
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print "The money numbexrs are:\n"， 
map { sprintf("%25s\n"，&big_money($_) ) } edata; 
和 我 们 在 grep 中 看 到 的 一 样 ， 我 们 也 可 以 用 更 简单 的 语法 实现 单条 语句 的 map 操 作 。 如 果 
你 的 选择 器 只 需要 一 个 简单 的 表达 式 (而 不 是 一 整个 语句 块 ) 就 能 完成 的 话 ， 可 以 直接 
写 上 这 个 表达 式 ， 跟 上 逗号 即 可 : 


pIint ”Some powers of two azre:\n ， 
map "\t" (2##k$ ) "An"，0..15; 


更 花哨 的 列表 工具 
在 Perl 里 面 还 有 一 些 模块 专门 用 于 列表 数据 的 处 理 。 毕 竞 ， 许 多 程序 说 到 底 不 过 是 一 系 
列 对 列表 数据 的 变形 轩 了 。 


List::Util 模 块 包 含 在 标准 库 中 ， 它 能 提供 各 式 高 效 的 常见 列表 处 理工 具 ， 都 是 用 C 语 
言 实现 的 。 


比如 我 们 想 要 知道 某 个 列表 中 是 否 有 元 素 符合 特定 条 件 。 我 们 不 必 取 出 所 有 元 素 ， 只 要 
找到 第 一 个 符合 条 件 的 就 可 以 结束 遍历 ， 返 回 结果 。 所 以 这 里 我 们 不 能 用 gzrep 实 现 ， 因 
为 它 会 对 列表 进行 完整 扫描 ， 要 是 原始 列表 相当 长 的 话 ， grep 可 能 会 多 做 许多 无 谓 的 工 
作 ， 让 ie 
my $first_match; 
foreach (@characters) { 
放 〈(/\bpPebbles\b/i) { 
$first_match = $ 3; 
1ast; 


】 
】} 


这 样 的 代码 实在 太 鹃 嗪 ， 我 们 可 以 用 List: :Util 提 供 的 first 子 程序 完成 相同 任务 : 


use List::Util qw(first); 
my $fjrst_match = first { /AbPepbles\b/i ] @character5s; 


在 第 四 章 的 习题 中 ， 你 创建 了 一 个 名 为 是 otal 的 子 程序 ， 如 果 早 知道 List::Util 的 话 ， 
就 不 用 费 这 么 多 事 了 : 


use List::Util quw(sum); 
my $total = sum( 1,..1000 ); # 得 到 总 和 500500 


另外 在 第 四 章 中 的 &max 子 程序 也 是 如 此 ， 从 列表 中 选 出 值 最 大 的 那个 。 这 样 的 功能 
完全 不 必 自 己 来 写 ， 直 接 用 List: :Util 提 供 的 版 本 就 好 了 ， 
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Use List::UtiL qw(max); 

my $max = max( 3，5，10，4，6 ); 
这 个 max 只 能 处 理 数 字 ， 如 果 要 处 理 字符 串 (使 用 字符 串 比较 ) 的 话 ， 可 以 用 maxstr 实 
现 : 


Use List::Util qw(maxstr); 
my $max = maxstr( @stTings ); 


如 果 要 对 列表 中 的 元 素 随 机 排序 的 话 ， 可 以 用 shuffle 实 现 : 


use List::Util qw(shuffle); 

my @shuffled = shuffle(1..1000); # 使 列表 元 素 的 排序 随机 
另外 还 有 一 个 模块 ，List: :MoreUtils， 它 提供 的 工具 更 多 。 但 它 不 是 Perl 自 带 的 ， 所 以 
你 得 自己 到 CPAN 下 载 安 装 。 你 可 以 用 它 检查 列表 中 是 否 没 有 一 个 元 素 ， 或 者 有 任何 元 
素 ， 或 者 所 有 元 素 都 符合 特定 条 件 。 每 个 这 样 的 列表 工具 都 支持 类 似 grep 那 样 的 语法 : 


use List: :Moreutils qw(none any all); 


if (none{$ >4100 }】 enumbers) { 
pTrint “No elements over 100Nn” 

} elsif (any{$ >50 }e@numbers) { 
print "Some elements Over 50\n“"; 

} elsif (all { 4 《10 }e@numbers) { 
prIint "AL1 elements are less than 10\n ”; 


】} 
如 果 需 要 对 按 元 素 组 处 理 列表 的 话 ， 可 以 用 natatime (N at a time， 同 时 处 理 N 组 ) 来 取 
出 对 应 位 置 上 的 元 素 ， 

use List;:MoreUtils qw(natatime); 

my $iterator = natatjime 3，@arTzayj 


while( my @triad = $iterator->() ) { 
print "Got @triad\n ; 


如 果 要 合并 两 个 或 多 个 列表 ， 可 以 用 me sh 构造 一 个 大 型 列表 ， 交 错 填充 原始 列表 中 各 个 
位 置 上 的 元 素 ， 就 算 其 中 某 个 列表 长 度 很 小 都 没关系 ， 人 

Use List::MoreUtils quw(mesh); 

my @abc = 'a .。. 'z") 

my @numbers = 1 .。 20; 


my @dinosaurzs = quw( dino ); 


my @large_arTray = mesh 6@abc，@nunbers，@dinosaurs; 
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这 会 先 取出 abc 中 的 第 一 个 元 素 并 让 它 成 为 blarge_array 中 的 第 一 个 元 素 ， 再 取出 6 
numbers 中 的 第 一 个 元 素 并 让 它 成 为 9large_array 中 接 下 来 的 元 素 ， 然 后 按照 同样 的 方式 
引入 edinosaurs 中 的 数据 。 接 着 回 到 第 一 个 eabc 取 出 它 的 下 一 个 元 素 ， 依 此 类 推 ， 直 到 
所 有 列表 中 的 元 素 全 部 取出 为 止 。 所 以 最 终 放 在 6Llarge_array 中 的 列表 的 开头 的 几 个 元 
素 是 : 


alldinob2c3 ... 


List::MoreuUtils 里 面 还 有 许多 有 意思 的 列表 处 理子 程序 ， 在 自己 实现 具体 程序 之 前 ， 
不 妨 先 看 看 它 的 文 要 ， 如 果 有 现成 的 ， 直 接 拿 来 用 。 


习题 


下 列 习 题 答案 参见 第 340 页 上 的 “第 十 七 章 习题 解答 ”一 节 ， 
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[30] 写 一 个 程序 ，. 从 文件 中 读 取 一 组 字符 串 (每 行 一 个 ) ， 然 后 让 用 户 键入 模式 以 
便 进 行 字符 串 匹 配 。 对 每 一 个 模式 ， 程 序 应 该 说 明文 件 里 共有 多 少 字符 串 匹 配 成 
功 ， 分 别 是 哪些 字符 串 。 对 于 所 键入 的 每 个 新 模式 ， 不 应 重新 读 取 文 件 ， 应 该 把 这 
些 字符 串 存 放 在 内 存 里 。 文 件 名 可 以 直接 写 在 程序 里 。 假 如 某 个 模式 不 合法 〈 例 
如 : 括号 不 对 称 ) ， 那 么 程序 应 该 汇报 这 些 错误 ， 并 且 让 用 户 继续 尝试 其 他 模式 。 
假如 用 户 键入 的 不 是 模式 而 是 空白 行 ， 那 么 程序 就 该 停止 运行 。 如 果 你 需要 一 个 充 
满 有 趣 字符 串 的 文件 来 进行 匹配 ， 那 么 试 试 sample_text 这 个 文件 吧 。 你 应 该 已 经 从 
O'Reilly 的 网 站 下 载 过 这 个 文件 了 。 下 载 方式 请 在 本 书 前 言 中 查找 。 

[15] 写 一 个 程序 ， 报 告 当前 目录 下 所 有 文件 的 最 后 访问 时 间 和 最 后 修改 时 间 (纪元 
时 间 ) ， 单 位 为 秒 。 用 stat 取 得 文件 的 时 间 咪 信息 ， 利 用 列表 切片 的 写法 提取 这 两 
个 元 素 。 然 后 按照 下 面 的 三 列 形 式 输出 结果 ; 


fred.txt 1294145029 1290880566 
bazney .txt 1294197219 1290810036 
betty ,七 Xt 1287707076 414274433310 


[15] 修 改 上 题 程 序 ， 把 时 间 格 式 改 为 YYYYMM-DD 的 形式 。 用 map 逐 个 输出 ， 并 用 


_ localtime 通 过 列表 切片 提取 纪元 时 间 的 年 、 月 、 日 字段 。 注 意 localtime 文 档 中 对 


它 返回 的 年 份 和 月 份 数字 的 说 明 。 最 终 和 输出 的 结果 应 该 和 下 面 类 似 : 


fred.txt 2011-10-15 20141-09-28 
barney .txt 2011-10-13 2011-08-11 
betty ,txt 2011-10-15 2010-07-24 


高 级 Perl 技 巧 | 305 


附录 A 


习题 解答 


本 附录 包含 前 面 各 章 习 题 的 答案 。 


第 一 章 习题 解答 
1， 这 个 练习 很 简单 ， 程 序 我 们 已 经 给 你 了 。 
print *Hello，worldiNn?"; 
如 果 你 用 的 是 Perl 5.10 或 以 上 版 本 ， 可 以 试 试 say: 


Use 5.010; 
say“Hello，wor1d!”; 


如 采 和 希望 在 命令 行 尝试 而 不 特地 创建 程序 文件 ， 可 以 用 -e 开 关 指 定 要 执行 的 程序 ， 
$.perl -e“pTint "Hel10，Morld\n” ， 
另外 还 有 一 个 开关 ，-1， 启 用 后 会 自动 在 输出 内 容 后 添加 换行 符 : 
$ pez1 -le “print “Hell6，Wor1d”， 
2.， perldoc 命 令 是 和 Per 命令 一 起 安装 的 ， 所 以 直接 键 人 该 命令 就 应 该 可 以 执行 。 
3 ”这 个 程序 也 很 容易 ， 只 要 完成 上 面 这 道 题 ， 答 案 基 本 上 就 在 这 儿 了 ， 
Qilines =“perldoc -uU -f atan2 ; 
foreach (@lines) { 
s/Awc([^>]+)>/AU$178g; 


print; 
】 


307 
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1. 


注 1: 


注 2: 


注 3: 
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下 面 是 实现 方法 之 一 : 


- 埋 1/UsY/AbinVpezl -ww 

$pi = 3.1415926543; 

$cizrc = 2  $pi# 12.53 

print “The circumfeIzence of a circle of radius 12.5 is $circ.Nn ; 


正如 你 所 看 到 的 ， 此 程序 以 常见 的 扫 行 开头 ， 你 的 机 器 上 的 Perl 安 装 路 径 可 能 会 有 


_ 所 不 同 。 另 外 ， 我 们 也 启用 了 警告 信息 。 


程序 代码 正文 里 的 第 一 行 会 将 印 i 的 值 设 成 我 们 需要 的 的 值 。 这 种 使 用 常量 [性 1 
的 做 法 有 许多 好 处 ， 在 3.141592654 重 复出 现时 ， 可 以 节省 键 和 人 时间， 避免 在 某 处 
使 用 3.141592654， 却 在 另 一 处 使 用 3.14159 所 造成 的 意外 错误 ， 你 只 需要 检查 一 行 
程序 代码 ， 就 可 以 避免 因为 不 小 心 键入 3 .141952654 而 让 宇宙 飞船 飞 到 别 的 星球 去 ， 
键 和 pi 要 比 键入 容易 得 多 ， 特 别 是 在 你 没有 Unicode 的 时 候 。 并 且 ， 这 样 做 在 修 
改 值 的 时 候 也 易于 程序 维护 入? 。 接 下 来 ， 我 们 会 计算 出 圆周 长 并 将 它 保存 到 
$cizrc 中 ， 然 后 以 漂亮 的 信息 将 其 输出 。 信 息 最 后 面 是 换行 符 ， 因 为 只 要 是 合格 的 
程序 ， 每 行 的 输出 都 该 以 换行 符 做 结尾 。 如 果 没 有 换行 符 ， 则 视 shell 的 提示 符 而 
定 ， 输 出 结果 可 能 会 变 成 这 样 ; 


The circumfexrence of a circle of radius 12.5 is 
78.53981635.bash-2.01$[] 


行 尾 的 方 框 代表 闪烁 的 光标 ， 也 就 是 shell 在 信息 结尾 的 提示 符 [ 芋 3] 。 既 然 圆周 长 
不 应 该 是 78.53981635.bash-2.01$， 那 么 这 应 该 算是 程序 的 bug。 因 此 ， 请 务必 在 
每 一 行 输出 的 结尾 加 上 \n。 


下 面 是 实现 方法 之 一 : 


#1VUSTVbjinVperl - 骨 

$pi = 3.141592654; 

print "What is the Tadius? “"; 

chomp($radius =《STDIN>); 

$circ = 2 *# $pi* $radius; 

print “The circumference of a circle of Tadius $radius js $circ.An ; 


如 果 你 章 欢 用 更 正式 的 方式 来 使 用 常量 ， 那 么 你 可 以 使 用 constant 编 译 指令 。 

开 值 的 最 近 一 次 改变 发 生 在 一 个 多 世纪 之 前 ， 印 第 安 纳 州 议会 通过 了 该 决议 。 请 参阅 
1897 年 印第安 纳 州 议会 的 第 246 号 文件 (http:W/mwww.cSs.Waterioo.ca/~aiopez-oalat 太 -adg/ 
1Ode45.71121) 。 

我 们 问 了 O"Reilly， 请 他 们 帮 匠 们 用 会 闪烁 的 油 时 来 打印 这 个 输入 光标 ， 我 们 愿意 额外 付 
钱 ， 但 他 们 不 愿 帮 有 我 们 做 。 
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此 程序 和 前 一 题 的 类 似 ， 不 过 这 次 我 们 提示 用 户 键 人 半径 长 度 ， 然 后 用 $radius 
(半径 ) 代替 前 一 题 里 写 死 的 12.5。 事 实 上， 如 果 在 写 第 一 题 的 程序 时 能 够 考虑 得 
更 周全 ， 当 时 我 们 也 应 该 使 用 $radius 这 个 变量 。 要 注意 的 是 ， 我 们 对 输入 值 使 用 了 
chomp， 就 算 不 这 么 做 ， 上 面 的 算式 依然 有 效 ， 因 为 "12.5\n" 之 类 的 字符 串 会 自动 转 
换 成 数字 12.5。 但 当 我 们 要 输出 信息 时 ， 它 看 起 来 就 会 像 这 样 : 


The cixrcumfexrence of a circle of tadjius 12.5 
is 78.53981635. 


我 们 发 现 ， 即 使 之 前 已 经 将 $radius 当 成 数字 使 用 ， 但 换行 符 还 是 会 留 在 里 面 。 因 
为 print 语 句 中 的 $radius 和 is 中 间 有 空格 ， 所 以 输出 的 第 二 行 开 头 也 有 空格 。 这 个 
例子 告诉 我 们 ， 除 非 有 特殊 原因 ， 否 则 请 一 律 对 输入 值 进行 chomp 处 理 。 
下 面 是 实现 方法 之 一 : 

#1VUsTVbin/Vpez]l -W 

$pi = 3.141592654; 

print “What is the Tadius? “; 

chomp($radius = <STDIN> ); 

.$circ = 2 *# pi y# $radius; 

计 ($radius“ 0) { 

$circ = 0; 

】 

print "The circumference of a circle of Tadius $Tradius is $circ.Nn"; 
_ 在 这 里 我 们 进一步 检查 了 有 问题 的 半径 值 。 即 使 所 输入 的 半径 值 不 合理 ， 程 序 至 少 
也 不 会 返回 负 的 圆周 长 。 你 也 可 以 先 将 半径 设 成 0， 再 计算 它 的 圆周 长 。 办 法 不 止 “ 
一 种 。 事 实 上 ，“ 办 法 不 止 一 种 (There Is More Than One Way To Do It) ”是 
Perl 的 座右铭 。 每 道 习 题 的 解答 都 以 “下 面 是 实现 方法 之 一 ` 开头 ， 道 理 就 在 此 。 
下 面 是 实现 方法 之 一 : . 

print "Enter first numbezr: “; 

chomp($one =《STDIN>); 

pzrint "Enter second number: ”; 

chomp($two = “STDIN> ); 

$result = $one # $two; 

Print “The Tesult is $result.\n 
要 注意 的 是 ， 这 个 解答 里 省 略 了 #1 那 行 。 事 实 上 ， 接 下 来 我 们 一 律 假设 你 已 经 知道 
它 的 存在 ， 所 以 不 用 每 次 都 重复 提 它 。 
上 面 的 变量 名 称 也 许 取得 不 太 好 。 在 长 一 点 的 程序 里 ， 程 序 维护 员 可 能 会 认为 $two 
的 值 应 该 是 2。 在 这 么 短 的 程序 里 设 什么 关系 ， 但 如 果 程 序 很 长 ， 就 该 取 比 较 有 描述 
性 的 名 称 ， 像 几 irst_response 之 类 的 。 


在 这 个 程序 里 ， 无 论 我 们 有 没有 对 $one 和 4two 这 两 个 变量 进行 chomp 都 无 关 紧 要 ， 
因为 它们 在 赋值 之 后 不 会 被 当成 字符 串 来 用 。 可 是 ， 如 果 程 序 维护 员 在 下 星期 修改 
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洲 程 序 ， 让 它 和 输出 像 The result of multiplying $one by $two is $result.\n 这 样 


的 信息 ， 那 么 讨厌 的 换行 符 又 会 回来 作 浊 。 再 次 强调 ， 除 非 有 特殊 原因 ( 像 下 一 题 
的 情况 ) ， 否 则 铺 一 律 对 输入 值 进 行 chomp 处 理 [ 坦 4] 。 


下面 是 实现 方法 之 一 ; 


print “Enter a string: “; 

$str =《STDIN> ; 

print “Enter a number of times: "; 
chomp($num = 《STDIN> ); 

$result = $str X $numy 

print “The Tesult is:\n$result"; 


从 某 个 角度 来 看 ， 这 个 程序 和 前 一 题 的 几乎 完全 相同 。 在 这 里 ， 我 们 也 是 计算 字符 
串 的 重复 次 数 ， 因 此 保留 了 和 前 一 题 相 同 的 程序 结构 。 不 过 ， 这 次 我 们 不 想 对 第 一 
行 输入 字符 串 进行 chomp ， 因 为 题目 上 要 求 将 重复 的 每 一 行 分 开 显示 。 这 样 一 来 ， 假 
设 用户 所 输入 的 字符 串 是 fred 与 换行 符 ， 而 重复 次 数 为 3 时 ， 每 行 的 fred 后 面 就 都 会 
正确 地 加 上 换行 符 。 

程序 尾 端的 print 语 名 里， 我 们 将 换行 符 放 在 $result 的 前 面 ， 这 样 第 一 行 的 fred 才 
会 以 自 成 一 行 的 方式 被 显示 出 来 。 换 名 话说， 我 们 不 想 让 所 输出 的 三 行 fred 中 只 有 
两 行 对 齐 ， 如 下 所 示 ; 

The result is: fred 


… fred 
.fred 


这 次 我 们 不 必 在 print 输 出 的 结尾 加 上 换行 符 ， 因 为 $result 应 该 已 经 以 换行 符 结尾 
了 。 

程序 里 的 空格 在 大 部 分 情况 下 对 Perl 都 没有 影响 ， 要 不 要 加 空格 是 你 的 自由 。 但 请 
小 心 ， 别 拼 错 字 了 1! 如 果 程 序 里 的 x 和 它 前 面 的 变量 名 称 $stzr 间 没有 空格 ，Perl 所 看 
到 的 将 会 是 $strx， 从 而 导致 运行 失败 。 
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下 面 是 实现 方法 之 一 : 


print “Entez Some lines，then press Ctrl1-D:\n"; # 或 者 试 试 Ctrl1-Z 
@lines =《9STDIN>; 

@reveTse_]jines = feverse @ljine5; 

print 6@reveTse_lines; 


“chomp” 这 个 词 本 身 就 是 使 劲 嘎 巴 着 嘴 嚼 东西 的 意思 ，chomp 处 理 就 好 比 是 咀 路 ， 虽 然 
并 非 必须 ， 但 中 一 踢 再 知 下 去 总 没有 坏处 。 
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或 者 ， 更 为 简单 的 写法 : 


print "Enter some lines，then press CtTl-D:\n ; 
Print revetzse 《STDIN>; 


除非 所 输入 的 列表 在 程序 后 面 还 会 用 到 ， 否则 大 部 分 Per 程序 员 都 会 选择 第 二 种 做 
法 。 
下 面 是 实现 方法 之 一 : 


@names = qwW/ fred betty barney dino wjilma pebbles bamm~bamm /; 
print "Enter Some numbers fTom 1 to 7，one per 1Line， en pxress Ctrl1-D:NAn"; 
chomp(@numbers =《STDIN> ); 
foreach (@numbers) { 
print "$names[ $ - 1 ]n" 


-因为 数组 索引 是 从 0 数 到 6， 所 以 这 里 必须 将 索引 值 碱 1， 好 让 用 户 能 够 从 1 数 到 7。 


另外 一 种 做 法 是 在 @names 数 组 前 面 加 上 一 个 值 来 充 数 ， 像 这 样 ; 
@nanmes = qW/ dummy_item fred betty barney dino wilma pebbles bamm-bamm /; 
如 果 你 还 额外 检查 了 用 户 的 输入 是 否 在 1 到 7 的 范围 内 ， 请 给 自己 加 分 。 
如 果 想 让 所 有 的 输出 结果 均 显 示 在 同一 行 ， 下 面 是 实现 方法 之 一 : 
chomp(6@lines = 《“STDIN> ); 
@sorted = Sort 6@lines; 
print "@sortedN\n "; 
或 者 ， 让 每 行 分 开 显示 : 


pzint Sort 《STDIN>; 


Ce 


1. 


下 面 是 实现 方法 之 一 : 


Sub total 荆 
my $sum; # 私有 变量 
foreach (@_) { 
$sum += 中 
】} 
$sum; 


】 


这 个 子 程序 使 用 $s um 来 存储 到 目前 为 止 的 总 和 。 每 次 子 程序 开始 执行 时 ，$s unm 都 会 
是 新 创建 的 变量 ， 因 此 其 值 为 undef。 之 后 ，foreach 循 环 会 以 $_ 作 为 控制 变量 来 逐 
项 处 理 @_ 里 的 参数 列表 。 (请 注意 : 我 们 再 次 强调 参数 数组 @ 跟 foreach 循 环 的 默认 
变量 $_ 之 间 并 没有 任何 自动 产生 的 联系 。) 
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foreach 循 环 第 一 次 执行 时 ， 会 将 第 一 项 参数 (存储 在 $ 中) 与 $sum 相 加 。 此 时 $sunm 
的 值 还 是 undef， 因为 它 还 设 有 被 存 和 人 任何 东西 。 但 是 ， 由 于 Perl 能 从 数字 操作 符 += 
判断 它 是 被 当成 数字 使 用 ， 所 以 会 把 它 的 值 当 作 o， 然 后 再 将 总 和 存 回 $sum 里 。 


当 循 环 再 次 执行 时 ， 下 一 项 参数 也 会 与 $s um 相 加 ， 而 这 时 $s um 的 值 已 经 不 是 undef 
了 。 两 者 的 总 和 又 会 存 回 $sum 里 ， 然 后 再 以 相同 的 方式 处 理 接 下 来 的 参数 。 全 部 处 
理 完 毕 之 后 ， 程 序 的 最 后 一 行 会 将 $sum 返 回 给 调用 者 。 
对 某 些 人 来 说 ， 这 个 子 程序 可 能 有 缺陷 。 假 设 子 程序 被 调用 时 有 一 个 空 的 参数 列 
表 ， 像 在 第 四 丫 正 文中 重 写 的 子 程序 tmax。 这 样 ，$s um 的 值 将 会 是 undef， 人 也 就 是 
此 子 程序 所 返回 的 值 。 但 在 这 个 子 程序 里 ， 比 较 恰 当 的 做 法 是 将 空 列 表 的 总 和 设 成 0 
而 非 undef。 (当然 ， 如 果 你 认为 空 列 表 的 总 和 应 该 与 (3, -5,2) 的 总 和 有 所 区 别 ， 那 
么 返回 undef 是 正确 的 做 法 。) 
如 果 不 想 看 到 未 定义 的 返回 值 ， 办 法 很 简单 : 请 直接 将 $s um 的 初始 值 设 为 0， 而 不 
是 默认 的 undef: 
my $sum = 0; 
如 此 一 来 ， 即 使 参数 列表 是 空 的 ， 这 个 子 程序 也 一 定 会 返回 定义 过 的 数字 。 
2. 下 面 是 实现 方法 之 一 : 
# 记得 加 上 前 一 题 里 &total 子 程序 的 代码 ! 
print "The numbers from 1 to 1000 add up to“"“，total(1..1000)，".\n"; 
要 注意 的 是 ， 我 们 不 能 在 双 引 号 括 住 的 字符 串 里 直接 调用 子 程序 让 5 ， 所 以 子 程 
序 调用 是 print 的 另 一 个 独立 参数 。 总 和 应 该 是 500500， 一 个 很 好 看 的 整数 。 程 序 
的 运行 应 该 花 不 了 多 少时 间 ， 传 递 1 000 个 参数 对 Perl 而 言 是 常见 的 小 事 。 
3， ”下面 是 实现 方法 之 一 : 


sub average 1 
if (@. == 0) { return } 
my $count .= @_ ; 
my $sum = total(@_ ); # 8&total 来 自前 面 的 习题 
$sumV$count; 


】 


Sub above_aveTage 1{ 
my $average = average(@_ ); 
my @1ist; 
foreach my $element (@.) { 
if ($eJement > $average) { 
push 6@1ist，$elLement ; 


注 $: 也 就 是 说 ， 我 们 得 用 些 高 级 技巧 才 可 以 做 到 。 一 般 来 说 在 Perl 里 没有 什么 是 你 完全 无 法 
做 的 。 
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3. 


注 6: 


】 


6@list; 
】 


在 average 里 ， 如 果 参 数列 表 是 空 的 ， 子 程序 就 会 结束 ， 但 并 没有 明确 写 上 返回 值 。 
因此 调用 者 将 会 取得 undef i6 这 个 返回 值 ， 这 表示 空 列 表 没 有 平均 值 。 如 果 参 数 
列表 不 是 空 的 ， 那 么 &total 就 能 帮忙 计算 平均 值 。 此 处 并 无 必要 使 用 $sum 与 $count 
这 两 个 临时 变量 ， 但 它们 能 让 程序 变 得 容易 阅读 些 。 
第 二 个 子 程序 above_avetage 会 建立 并 返回 由 期 望 的 元 素 构成 的 列表 。 (为 何 循环 
的 控制 变量 是 kelement， 而 不 是 Perl 最 爱 的 默认 变量 $_ ? ) 请 注意 ， 这 个 子 程序 对 
空 参数 列表 有 不 同 的 处 理 方 式 。 
要 记 住 greet 上 一 次 对 话 的 人 ， 可 以 使 用 一 个 state 变 量 。 一 开始 它 会 是 undef， 这 样 
我 们 就 知道 Fred 是 它 第 一 个 问候 的 人 。 在 这 个 子 程序 的 结尾 ， 我 们 把 当前 的 $name 保 
存在 $1ast_name 中 ， 这 样 下 一 次 我 们 才能 记得 它 是 什么 ， 

use 5.010; 


gxreet( “Fred' ); 
greet( “Barney”); 


sub greet { 
State $1ast_peTr5sonj 


my $name = shifty; 
print “Hi $namel “; 


计 ( defined $1ast_person ) { 
print "$last_person is also herelAXn j 


else { 
print "You are the first one herel\n ; 


$last_person = $name; 


】 
下 面 这 种 方法 和 前 面 的 差不多 ， 但 是 这 次 我 们 把 所 有 出 现 过 的 名 字 都 保存 下 来 。 我 
们 不 使 用 标量 变量 ， 而 是 用 @names 这 个 状态 变量 来 保存 所 有 的 名 字 : 

Use 5.010; 

greet(“Fred'”); 


greet( “Bazrney”); 
greet( “Wilma” ); 


如 果 8&average 在 列表 上 下 文中 的 话 会 返 回 一 个 空 列表 。 
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greet( “Betty” ); 


Sub greet { 
state @names; 


my $name = shift; 
print “Hi $namel ”; 


if( @names ) { 
print "IT' ve Seen: @names\n"; 


} 
else { 

pzint "You are the first one herelNn ; 
】} 


”push @names，$name; 


】} 


第 五 章 习 题解 答 


1 下面 是 实现 方法 之 一 : 


print reverse <>; 


嗯 ， 蛮 简单 的 ! 能 够 这 样 写 ， 是 因为 print 的 参数 是 所 要 输出 的 字符 串 列 表 ， 也 就 
是 在 列表 上 下 文中 调用 reverse 的 结果 。ireverse 的 参数 是 要 被 倒置 的 字符 串 列 表 ， 
也 就 是 在 列表 上 下 文中 调用 钻石 操作 符 (diamond operator) 的 结果 。 钻 石 操作 符 
所 返回 的 列表 是 由 用 户 选 择 的 所 有 文件 里 的 每 一 行 所 组 成 的 。 这 个 列表 与 cat 命 令 
所 输出 的 结果 相同 。 于 是 zeverse 会 将 此 列表 倒置 ， 再 交 由 print 输 出 。 


2. 下面 是 实现 方法 之 一 : 


przint “Enter Some lines，then press Ctrl-D:\n"; # 或 是 Ctrl1-Z 
chomp(my @lines = 《STDIN>); 


print “1234567890”X 7，"12345\n"; ## 标尺 行 ， 到 第 75 个 字符 的 地 方 
foreach (@lines) { 

Piintf "%20sN\n" ，$_; 
】 


此 处 ， 我 们 会 先 读 取 所 有 的 文本 行 ， 再 对 它们 进行 champ 处 理 。 接 下 来 ， 我 们 会 

出 标尺 行 (ruler line)。 由 于 它 是 帮忙 调试 的 工具 ， 所 以 在 程序 写 完 守之 后 我 们 通常 
把 它 变 成 注释 。 我 们 可 以 重复 键入 "1234567890"， 甚 至 使 用 复制 与 粘贴 来 制造 出 各 
种 长 度 的 标尺 行 ， 但 我 们 还 是 选择 了 上 面 这 种 做 法 ， 因 为 比较 酷 。 


， 接 下 来 ，foreach 循 环 会 逐 项 处 理 列表 里 的 每 行文 本 ， 将 它们 交 由 %20s 转 换 后 输 
出 。 还 有 另 一 种 做 法 可 以 一 次 输出 全 部 列表 ， 而 不 必 使 用 循环 : 
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注 7， 
注 8 : 


注 9: 


my $format =“%20s\n”X @lLines; 
pPTintf $format，@Lines; 


这 里 有 个 常见 的 错误 会 让 每 行 输出 只 有 19 个 字符 。 假 设 你 对 自己 说 考 71 ，“ 嘿 ， 
既然 最 后 会 将 换行 符 加 回去 ， 一 开始 又 何必 对 输入 做 chomp 昵 ? ”于 是 就 省 略 
chomp， 而 把 格式 改 成 "%20s"” (不 含 换行 符 ) [81 。 然 后 程序 运行 时 ， 奇 怪 的 事 发 
生 了 : 输出 结果 少 了 一 个 空格 。 问 题 到 底 出 在 哪里 ? 


这 个 做 法 会 在 Perl 计 算 “ 需 要 多 少 个 空格 才 有 办 法 补 齐 所 需 字段 的 时 候 ”发 生 问 
题 。 假设 用 户 键入 的 是 hel1o 和 换行 卫 符 ， 则 Perl 所 看 到 的 是 6 个 字符 而 不 是 5 个 ， 因 
为 换行 符 也 算 一 个 字符 。 所 以 ， perl 会 输出 14 个 空格 以 及 含有 6 个 字符 的 字符 惠 ， 
凑 起 来 刚好 就 是 你 在 "%20s" 里 所 需要 的 20 个 字符 。 粳 糕 。 

PerI 淹 断 字符 音 长 度 时 当然 不 会 去 奢 它 的 内 容 ，Perl 只 会 检查 字符 教 重 。 多 余 
的 换行 符 〈 或 是 其 他 特殊 符号 ， 像 制 表 符 或 空 字符 ) 会 造成 意料 之 外 的 计算 结 

果 [入 9] ， 

下 面 是 实现 方法 之 一 : 


pzint “What Column width would you like? ”; 
chomp(my $width = 《STDIN> ); 


print "Enter some lines，then preSss Ctrl-D:\n"; ## 或 者 Ctrl- Z 
chomp(my @lines =《STDIN>); 


print "1234567890”Xx 〈($width+9)/10)，"\n"; # 长 度 按 需 变 化 的 标尺 行 


foreach (@lines) { 
printf "%${fwidthys\n"，$_ 3; 


这 个 程序 和 前 一 题 的 相似 ， 只 不 过 这 次 会 先 问 字段 宽度 。 在 程序 一 开始 就 询问 ， 是 
因为 在 键入 文件 结尾 指示 符 (end-of-file indicator) 之 后 就 不 能 再 取得 输入 了 
(至 少 在 某 些 系统 上 是 如 此 ) 。 当 然 ， 在 实际 读 取 用 户 输入 时 通常 会 用 更 好 的 输入 
结尾 指示 符 《end-of-input indicator) 。 在 后 面 的 习题 解答 中 会 看 到 示例 。 

与 前 一 题 的 另 一 个 差异 是 在 标尺 行 的 处 理 上 。 按 照 附加 题 里 的 条 件 ， 我 们 使 用 了 一 
些 数学 技巧 ， 让 标尺 行 至 少 和 需要 的 长 度 相同 。 一 个 额外 的 挑战 : 你 能 证 明 这 里 的 
算式 是 正确 的 吗 ? (提示 : 考虑 50 和 51 两 种 宽度 ， 然 后 别 忘 了 x 对 右边 的 操作 数 是 
取 整 数 ， 而 不 是 四 含 五 人 。) 


或 对 Larry 说 ， 假 如 他 站 在 你 旁边 的 话 。 
除非 Larry 本 人 告诉 过 你 别 这 么 做 。 
现在 Larry 应 该 已 经 对 你 解释 过 了 。 
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我 们 会 用 表达 式 "%${widthjs\n" 来 产生 这 次 的 格式 ， 其 中 使 用 guidth 进 和 行内 播 。 花 
括号 是 必要 的 隔离 符号 ， 可 将 变量 名 称 与 后 面 的 s 隔 开 ， 如 果 没 有 花 括号 ， 内 插 的 就 
会 是 错误 的 变量 和 idths。 如 果 你 忘 了 怎么 使 用 花 括 号 ， 也 可 以 使 用 '% .和 $width."s\ 
nm" 这 样 的 表达 式 来 产生 相同 的 糙 式 化 字符 串 。 
$uidth 的 值 是 另 一 个 需要 chomp 的 例子 。 如 果 没有 对 字段 宽度 进行 chomp， 最 后 的 格 
式 化 字符 串 看 起 来 就 会 像 "%3o\ns\n"， 完 全 无 效 。 
以 前 知道 printf 的 人 也 许 还 会 想到 另 一 种 解法 。 既 然 printf 是 从 C 语 言 借 来 的 ， 而 
且 C 语 言 里 并 没有 字符 串 变量 内 插 ， 因 此 我 们 也 可 以 使 用 C 程 序 员 的 技巧 。 在 转换 
字符 串 里 ， 如 果 在 应 该 放 数 字 的 地 方 出 现 星 号 (*) ， 则 可 以 使 用 参数 列表 里 的 值 
来 替代 ， 如 下 所 示 : 

人 “%*#SNn” ， $width， $ 3; 
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316 


下 面 是 实现 方法 之 一 : 


my %]1ast_name = qu{ 
fred flintstone 
barney Tubb]e 
Wilma fl]intstone 
J 
print "Please enter a first name: "; 
chomp(my $name = 《STDIN>); 
print “That's $name $Last_name{f$namej ,An"; 


在 这 个 程序 里 ， 我 们 使 用 gw// 列 表 〈 以 花 括 号 为 定 界 符 ) 来 初始 化 哈 希 。 对 于 这 个 
简单 的 数据 设 定 而 言 并 没有 什么 问题 ， 因 为 数据 的 值 是 简单 的 名 字 与 姓氏 的 配对 ， 
因此 也 很 容易 维护 。 但 是 ， 如 果 你 的 数据 里 含有 空格 ， 例 如 ， 如 果 robert de niro 
(罗伯特 : 德 . 尼 罗 ) 或 mazy kay place (玛丽 ' 凯 、 - 普 菜 斯 ) 访问 Bedrock 的 话 ， 这 种 
简单 的 方法 就 不 一 定 管用 了 。 


你 也 可 以 将 每 一 个 键 - 值 对 分 开设 定 ， 如 下 所 示 : 


my %1ast_namej 

$last_namef "fred"} =“flintstone"”; 
$1ast_name{f "barney"} = "Tubble"; 
$1ast_name{f "wilma"} =“flintstone"; 


请 注意 ， 如 果 你 打算 使 用 my 来 声明 哈 希 (可 能 因为 采用 了 use strict) ， 则 必须 在 
声明 之 后 才 可 对 元 素 进行 赋值 。 你 不 能 只 对 变量 里 的 某 部 分 使 用 my， 如 下 所 示 : 
my $Last_namef{ "fred"] =“flintstone"; # 精 糕 ! 


换 名 话说 ， my 操作 符 只 能 声明 独立 的 变量 ， 不 能 用 来 声明 数组 或 哈 希 里 的 元 素 。 另 
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注 10: 


外 ， 请 注意 词法 变量 $name 是 在 chomp 函 数 调 用 的 括号 内 声明 的 。 像 这 种 需要 时 再 声 
明 my 变 量 的 做 法 在 Perl 程 序 里 十 分 常见 

在 这 个 程序 里 ， chomp 也 是 不 可 或 缺 的 。 如 果 有 人 键 和 人 A 了 "fred\n "这 5 个 字符 ， 而 我 
们 又 没有 对 它 进行 chomp ， 程 序 就 会 去 找 键 值 为 "fred\n" 的 哈 希 元 素 ， 但 却 找 不 到 。 
当然 ，chomp 并 不 是 万 能 的 ， 如 果 所 键入 的 是 "fred \n" (后 面 多 了 一 个 空格 ) ， 我 
们 就 没 办 法 以 目前 为 止 所 学 到 的 技巧 来 判断 用 户 想 要 的 其 实 是 fred。 


如 果 你 还 检查 了 哈 希 的 键 是 否 存在 (使 用 exists 函 数 ) ， 以 便 在 用 户 打 错字 时 显示 
说 明 信 息 ， 请 给 自己 加 分 。 
下 面 是 实现 方法 之 一 : 

my(@words，%count，$word); #. 声明 变量 (可 以 省 略 ) 

chomp(@words = 《<STDIN> ); 


foreach $word (@words) { . 
$count{$word}y += 1; # 或 是 $count{$wordj = $count{$waordjy + 1; 
】} 


foreach $word (keys %count) { # 或 是 sort keys %count 
print "$worzd was seen $count{$wordj times.Nn"; 


在 这 里 ， 我 们 一 开始 就 声明 了 所 有 变量 。 这 对 用 过 Pascal 等 语言 的 人 来 说 ， 可 能 会 、 
比 “ 需 要 时 再 声明 ”要 熟悉 得 多 (在 Pascal 里 ， 变 量 一 定 要 在 最 前 面 声 明 ) 。 当 
然 ， 我 们 是 假设 use strict 正 在 起 作用 所 以 才 声 明 这 些 变量 的 。Perl 在 默认 情形 下 
并 不 需要 这 种 声明 。 


接 下 来 ， 我 们 会 在 列表 上 下 文中 使 用 行 输入 操作 符 <STDIN> 将 所 有 输入 行 读 进 @ 
words 里 ， 然 后 一 次 对 全 部 输入 行进 行 chomp。 这 样 一 来 ，@words 的 内 容 就 会 是 由 所 
有 输入 的 单词 所 组 成 的 列表 了 〈 假 设 一 切 顺 利 ， 则 每 行 只 有 一 个 单词 ) 。 


现在 ， 第 一 个 forfeach 循 环 会 逐 项 处 理 各 个 单词 。 该 循环 中 包含 了 整个 程序 里 最 重 
要 的 一 行 ， 它 会 将 $count{f$uwordj 的 值 加 上 1， 然 后 再 存 回 $count{$uwotrd}j。 你 也 
可 以 不 使 用 += 操 作 符 ， 而 改 用 比较 长 的 写法 。 不 过 ， 较 短 的 写法 会 稍微 有 效率 一 
点 ， 因 为 Perl 只 需要 在 哈 希 里 查询 一 次 知 ord 就 行 了 [入 10 。 在 第 一 个 foreach 循 
环 里 ， 每 次 出 现 的 单词 都 会 让 $count{f$wozrd} 的 值 加 1。 假 设 第 一 个 单词 是 fred， 
那么 gcount{f "fred} 的 值 就 会 加 1。 既 然 这 是 第 一 次 用 到 $count{f"fred"}， 它 的 
值 自然 是 undef。 不 过 ， 因 为 我 们 将 它 当 成 数字 来 用 (利用 数字 操作 符 += 或 是 较 


在 Perl 的 有 些 版 本 中 ， 这 种 较 短 写 法 还 可 以 避免 输出 一 个 使 用 未 定义 值 的 警告 信息 ， 而 较 
长 写法 将 会 输出 此 警告 信息 。 有 虽然 我 们 还 没 提 到 ， 你 也 可 以 对 变量 使 用 ++ .操作 符 来 避免 
这 种 登 告 信息 。 
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长 写法 的 +) ， 所 以 Perl 会 自动 把 undef 转 换 为 0。 相 加 的 总 和 为 1， 所 以 会 将 1 存 回 
$count{ 们 fred"}。 


在 下 一 次 foreach 循 环 执行 时 ， 假 设 这 次 的 单词 是 barney。 我 们 会 将 . 
$count{f "barney"]} 的 值 加 1， 让 它 也 从 undef 变 成 1。 


现在 ， 假 设 下 一 次 的 单词 又 是 fred。 我 们 会 将 $count{f"fred} 的 值 (也 就 是 1) 
再 加 上 1 而 得 到 2。$countf "fred"} 的 值 于 是 成 为 2， 表 示 到 目前 为 止 fred 出 现 过 两 
次 。 

处 理 完 第 一 个 foreach 循 环 之 后 ， 我 们 已 经 计算 出 了 每 个 单词 的 出 现 次 数 。 哈 希 键 
就 是 来 自 输 入 的 单词 ， 而 相应 的 哈 希 值 则 是 单词 的 出 现 次 数 。 


最 后 ， 第 二 个 foreach 循 环 会 逐 项 处 理 各 个 哈 希 键 ， 也 就 是 所 有 互 不 重复 的 单词 。 

在 这 个 循环 里 ， 每 个 不 同 的 单词 各 会 出 现 一 次 ， 而 且 每 次 会 输出 像 “frzred was 

seen 3 tjimes” 这 样 的 信息 。 

附加 题 的 解答 : 你 可 以 在 keys 前 面 加 上 sort 以 便 按照 顺序 输出 哈 希 键 。 在 输出 结果 

超过 十 几 行 时 将 结果 排序 通常 是 件 好 事 ， 它 可 以 让 调试 的 人 迅速 找到 想 要 的 条 目 。 
3. 下面 是 实现 方法 之 一 : 


my $longest = 0; 

foreach my $key ( keys X%ENV ) { 
my $key_Length =* length( $key ); 
$longest = $key_length if $key_lLength >》$longest; 
】} 


foreach my $key (〈 sort keys %ENV ) { 
printf "%-$flongest}s %s\n"，$key，$ENV{$key 六 3 
} . 


在 第 一 个 foreach 循 环 中 ， 我 们 会 遍历 所 有 哈 希 键 并 使 用 Length 函 数 得 到 它们 的 长 
度 。 如 果 当 前 的 哈 希 键 长 度 比 保存 在 41ongest 变 量 中 的 长 度 还 长 ， 那 么 我 们 就 把 更 
长 的 那个 值 保 存在 变量 $longest 中 。 

一 且 我 们 遍历 完 所 有 的 哈 希 键 ， 我 们 就 可 以 用 printf 函 数 把 键 和 值 分 两 列 打 印 出 
来 。 这 里 使 用 在 第 五 章 的 第 三 个 习题 中 用 过 的 技巧 ， 即 使 用 变量 内 插 的 方式 将 
$longest 替 换 进 模板 字符 串 中 。 
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1 下 面 是 实现 方法 之 一 : 
while (<>) { 


计 (/fred/) { 
print; 
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注 11: 


】 
】} 


十 分 简单 。 本 习题 的 重点 其 实 是 让 你 亲手 试 试 例 子 里 的 各 个 字符 串 。 它 不 会 匹配 
Fred， 这 表示 正则 表达 式 会 区 分 大 小 写 (我 们 稍 后 会 提 到 如 何不 区 分 大 小 写 ) 。 它 
会 匹配 frederick 和 Al1fred， 因 为 这 两 个 字符 串 里 都 含有 fred 这 4 个 字符 (我 们 稍 后 
会 提 到 ， 如 何 比 对 独立 的 单词 ， 让 它 不 匹配 frederick 和 Alfred) 。 


下 面 是 实现 方法 之 一 : 把 第 一 题 的 答案 里 的 模式 改 成 /[fF]red/。 除 此 之 外 ， 也 可 
以 试 试 /(f|F)red/ 或 /fred|Fred/， 不 过 使 用 字符 集 的 话 性 能 更 好 。 

下 面 是 实现 方法 之 一 :把 第 一 题 的 答案 里 的 模式 改 成 八 ./。 必 须 加 上 反 和 斜 线 (因为 
点 号 是 元 字符 ) ， 或 是 写成 字符 集 /[.]/。 

下 面 是 实现 方法 之 一 : 把 第 一 题 的 答案 里 的 模式 改 成 /[A-Z][a-z]+/。 

下 面 是 实现 方法 之 一 : 把 第 一 题 的 答案 里 的 模式 改 成 /(\S)\1/。\S 字 符 集会 匹配 所 
有 的 非 空白 符 ， 而 圆 括号 可 以 让 你 使 用 反 向 引用 \1 来 匹配 紧 跟 着 它 的 同样 的 字符 。 
下 面 是 实现 方法 之 一 : 


while (<>) { 
计 《〈/wilma/) { 
if 〈(/fred/) { 
pzintj; 
】} 
】 
】} 
此 程序 只 有 在 /wilma/ 匹 配 成 功 时 才 会 测试 /fred/ 是 否 匹配 。 不 过 ，fTred 可 以 在 


wilma 之 前 出 现 ， 也 可 以 在 它 之 后 出 现 。 这 两 项 测试 是 互相 独立 的 。 
如 果 你 想 要 省 略 掉 第 二 层 的 i 计 测试 ， 也 可 以 像 下 面 这 么 写 [ 注 11 ， 


while (<>) { 
if (/wilma.*fred|fred.*wjilma/v) { 
print; 
} 
】} 
之 所 以 能 这 样 写 ， 是 因为 若 不 是 wilma 在 fred 之 前 出 现 ， 就 是 fred 在 wilma 之 前 出 
现 。 如 果 我 们 只 写 了 /wjilma.*fred/， 那 么 即使 fred and Wilma flintstone 这 一 行 中 


提 到 过 wilma 和 fred， 还 是 不 会 与 此 模式 相 匹配 。 

我 们 把 这 一 题 当 作 附 加 题 ， 是 因为 许多 人 在 这 里 有 理解 上 的 障碍 。 我 们 提 到 了 正则 
知道 远 辑 与 操作 符 (我 们 将 在 第 十 章 中 看 到 ) 的 人 可 以 在 if 条 件 表 达 式 中 同时 对 /fred/ 
和 /wilmay/ 进 行 匹 配 测 试 。 这 样 会 更 有 效率 ， 更 容易 扩展 ， 比 之 前 给 出 的 方法 好 多 了 。 但 
我 们 还 没 学 过 过 辑 与 操作 符 。 
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表达 式 里 的 “or” 运 算 (也 就 是 竖 线 符号 “|”) ， 但 却 从 来 没有 提 到 过 “and” 运 
算 。 这 是 因为 正则 表达 式 里 并 没有 “and” 运 算 [ 广 2] 。 如 果 你 想 知道 两 个 表达 式 
是 否 都 匹配 成 功 ， 那 就 对 它们 都 进行 一 下 测试 。 ， 
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1. 


注 12: 


注 13 
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有 一 种 很 简单 的 做 法 ， 我 们 已 经 直接 写 在 正文 中 了 。 其 输出 应 为 
before<match>afterz， 如 果 你 的 输出 不 是 这 样 ， 那 就 说 明 你 绕 远 路 了 。 


下 面 是 实现 方法 之 一 ; 
/ab/ 


(当然 ， 这 就 是 要 用 在 模式 测试 程序 闻 里 面 的 模式 ! ) 如 果 你 ;的 模式 不 幸 匹 配 了 
barney， 说 明 你 可 能 需要 使 用 单词 边界 销 位 (word-boundary anchor)。 


下 面 是 实现 方法 之 一 : 


#!1Vusr/binVperl 
while (<STDIN> ) 亏 
chompj; 
if 《/(\bwrkavb)/) 1 
print “Matched: | 和 <$8>$ Nm ; 
print "\$1 contains “$1 "Nm ; # 多 输出 一 行 
} else { 
print “No match: |$_|N\nm"; 


} ， 

这 是 稍微 修改 过 的 模式 测试 程序 ， 除 了 模式 不 同 外 ， 也 额外 加 了 一 行 打印 所 的 程序 
代码 。 

此 处 的 模式 在 括号 内 使 用 了 一 对 \b 单 词 边界 销 位 “:") ， 但 即使 写 在 括号 外 面 ， 也 
完全 没有 任何 差别 。 那 是 因为 锚 位 只 会 对 应 到 字符 串 中 的 某 个 位 置 ， 而 不 会 对 应 到 
某 个 字符 : . 它 的 宽度 为 零 (不 会 被 括号 捕获 到 ) 。 

下 面 这 道 习题 的 解答 和 上 面 的 差不多 ， 但 是 用 了 不 同 的 正则 表达 式 ; 


#17Vusr/bin/yperl 


但 实际 上 还 是 有 一 些 需要 技巧 和 部 级 的 方式 来 实现 类 似 的 “and” 操 作 。 通 常 这 些 方式 
会 比 Perl 的 远 辑 与 的 效率 要 低 ， 但 也 不 一 定 ， 这 得 看 Perl 和 它 的 正则 表达 式 引 擎 会 怎么 优 
化 。 


老实 说 ， 其 实 并 没有 必要 写 上 第 一 个 错位， 详细 的 原因 与 星 号 的 贪 禁 特性 有 关 ， 但 此 处 
不 谈 。 没 有 第 一 个 锚 位 可 能 会 比较 有 效率 ， 故人 的 你 人 同和 所 以 最 后 我 们 还 
是 选择 了 清晰 。 
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Use 5.010; 


While (<STDIN>) { 
chompy; 
计 (7/(?<word>\bNw*aNvb)/) 二 
pzrint "Matched: |$<$8>$ | An"; 


print "'word' contains '$+{fwordj \n # 新 的 输出 行 
} else { 
print "No match: |$_|\n"; 
】. 
】 
下 面 是 实现 方法 之 一 : 
由 1 
(\b\w*a\b) # $1:， 某 个 以 字母 3 结尾 的 英文 单词 
(.{0,5}) # $2: 后 面 接 上 的 字符 不 超过 5 个 
1xs # /x 和 /s 修 饰 符 


(因为 现在 使 用 了 两 个 内 存 变量 ， 所 以 别 忘 了 补 上 显示 和 的 程序 代码 。 如 果 你 自己 
又 将 模式 修改 成 只 使 用 一 个 内 存 变量 ， 请 把 多 余 的 那 一 整 行 标 为 注释 。) 如 果 你 肯 
模式 不 再 成 功 匹 配 wilma， 也 许 在 模式 中 需要 把 “ 零 个 以 上 的 字符 ” 改 成 “一 个 以 上 
的 字符 ”。/s 修 饰 符 可 以 暂时 忽略 ， 因 为 数据 里 面 应 该 没有 换行 符 《当然 ， 如 果 有 
的 话 ，/s 修 饰 符 可 能 会 产生 不 同 的 输出 。 

下 面 是 实现 方法 之 一 : 


while (<>) 《 
chomp; 
计 (人 \S\z/) { 
print “向 #\n ; 


】 
井 号 〈#) 在 这 里 用 作 标 示 字 符 ， 表 示 行 尾 的 位 置 。 
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下 面 是 实现 方法 之 一 : 
/($what){3}7/ 


在 $what 替 换 完成 后 ， 会 产生 类 似 /(fred|barney){3}/ 的 模式 。 如 果 省 略 圆 括号 ， 模 
式 会 变 成 /fred|barney{3}/， 这 也 就 等 于 是 /fred|barneyyy/。 因 此 ， 圆 括号 是 不 
可 或 缺 的 。 

下 面 是 实现 方法 之 一 : 


my $in = $ARGV[o]; 
if (1 defined $in) 
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die“Usage: $0 filename"j; 


) 


my $out = $in; 
$out =>~ S/(\ .w+)?$/ .out/; 


if (1 open $in fh，“ ，$in ) { 
die "Can't open '$in' : $ 


] 


if (1 open $out fh， "> ，$out ) { 
die “Can't Mite “"$out' : $ 世 ; 
while (〈<$in_fh>) 工 


S/Fred/Lazry/8gi; 
print $out_fh $ ; 


此 程序 一 开始 会 先 清点 它 的 命令 行 参数 ， 预期 应 该 要 有 一 个 。 如 果 没 有 取得 ， 就 抱 
怨 一 下 ;如 果 取 得 ， 则 把 参数 复制 到 $out 并 把 扩展 名 换 成 .out (其 实 直接 把 文件 名 
附加 上 .out 就 行 了 ) 。 

在 IN 和 0UT 这 两 个 文件 句柄 都 被 打开 之 后 ， 才 是 程序 最 主要 的 部 分 。 如 果 你 没有 使 
用 /g 和 /ji 这 两 个 修饰 符 ， 请 自行 扣 半 分 ， 因 为 这 样 一 来 就 没 办 法 换 掉 所 有 的 fred 和 
Fred 了 。 1 

下 面 是 实现 方法 之 一 : 

”while 〈<$in_fh>) 


chomp; 

S/Fred/AnVgi; # 将 所 有 的 FRED 替换 为 临时 的 占 位 符 
S/Wilma/Fred/giy; # 将 所 有 的 NILMA 替换 为 Fred 
5s/An/Nilma/Bg; # 再 将 所 有 占 位 符 换 回 为 好 lma 

print $out_fh “$_ An"“; 


】} 


”请 把 上 题 程序 的 循环 换 成 这 段 循 环 。 要 进行 这 种 互 换 ， 我 们 必须 先 找到 一 个 “ 占 位 


符 ”， 而 且 必 须 是 不 会 出 现在 数据 中 的 。 因 为 使 用 了 chomp 《最 后 输出 的 时 候 会 补 
上 一 个 换行 符 ) ， 所 以 我 们 知道 换行 符 〈\n) 是 绝对 不 会 出 现在 字符 串 中 的 ， 所 以 
换行 符 就 可 以 充当 占 位 符 。NUL 字 符 〈\o) 也 是 另 一 个 不 错 的 选择 。 


下 面 是 实现 方法 之 一 : 

$eI = "bak" # 制作 备份 

while (<>) 
if 《VANA#IA) # 是 #[ 开 头 的 那 行 吗 ? 

4 .= “" 撞 Copyright (C) 20XX by Yours TUlLyNn ; 

} 
Print; 

】 


运行 此 程序 时 ， 应 该 在 命令 行 参数 中 指定 需要 更 新 的 文件 。 假 设 你 的 习题 文件 名 都 
以 ex.. .开头 ， 比 如 ex07-7、ex07-2， 那 么 你 可 以 这 样 执行 命令 ， 

./fix_my_copyITight ex 
为 了 避免 重复 加 上 版 权 声 明 ， 我 们 得 分 两 回 处 理 所 有 文件 。 第 一 回 ， 我 们 会 先 建立 
一 个 哈 希 ， 它 的 键 是 文件 名 称 ， 而 它 的 值 是 什么 并 不 重要 。 为 了 简单 起 见 ， 此 处 将 
值 设 为 1; 

my %do_these; 

foreach (@ARGV) 1{ 

$do_thesef$_} = 413; 
第 二 回 ， 我 们 会 把 这 个 哈 希 当成 待 办 事项 列表 逐个 处 理 ， 并 把 已 经 包含 版 权 声明 行 
的 文件 移 除 。 目 前 正在 读 取 的 文件 名 称 可 用 $ARGV 取 得 ， 所 以 可 以 直接 把 它 拿 来 当 
哈 希 键 : 


while (<>) 
if 《〈/NAA## Copyright/) { 
delete $do_these{$ARGV]}; 
】 
】} 


最 后 的 部 分 就 跟 之 前 所 写 的 程序 一 样 ， 但 我 们 会 事先 把 @ARGV 的 内 容 改 掉 : 
@ARGV = Sort keys %do_these; 


$^I =“.bak"; # 准备 备份 
While (<>) { 
if (/AAIL) 1 # 是 #1 开 头 的 那 行 吗 ? 
$_ ,=“ 持 Copyright (c) 20XX by Yours TITulyNn"; 
】} 
pzrint; 
】 
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1 下 面 是 实现 方法 之 一 : 


my $secret = int(1 + Tand 100); 
# 在 调试 时 ， 可 以 去 掉 下 面 这 行 注释 


# prjint "Don't tell anyone，but the secTet numbeT jis $secTet.\n'"; 


while (1) 

Print “Please enter a guess from 1 to 100: “; 

chomp(my $guess =《STDIN> ); 

计 ($guess =” /qu 让 jexit|\A\s*\z/i) 
print “SorTy you gave up。 The number Was $secTet .NMn ; 
1ast; 

} elsif ($guess “ $secTret) { 
Print “Too Small1。 TIY againlAn ; 
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} elsif ($guess == $secTet) { 
pzint "That was itlNn"; 
last; 

} else { 
print “Too 1azge.。TIy againl\n” ; 


} 
此 程序 第 一 行 会 从 范围 1 到 100 挑 出 一 个 秘密 数字 ， 运 作 细节 如 下 。 首 先 ，rand 是 
Per1 的 随机 数 函 数 ， 所 以 rand 100 会 产生 0 以 上 100 以 下 的 随机 数 。 也 就 是 说 ， 该 表 
达 式 的 最 大 值 差不多 是 99.999 [ 注 14] 。 加 1 之 后 ， 数 字 的 范围 将 会 是 1 到 100.999， 
然后 使 用 int 函 数 取出 整数 部 分 ， 这 就 是 我 们 所 需要 的 范围 1 到 100 的 数字 。 
放 在 注释 后 面 的 程序 代码 可 协助 程序 的 开发 与 调试 ， 也 可 以 帮 你 作 奖 。 程 序 的 主要 
、 部 分 是 无 限 的 while 循 环 。 执 行 到 last 之 前 ， 它 会 让 我 们 不 断 猜 下 去 。 
测试 数字 之 前 先 测试 字符 串 ， 这 一 点 很 重要 。 如 果 我 们 不 这 样 做 ， 你 猜 得 出 用 户 
键入 quit 时 会 怎么 样 吗 ? 它 会 被 解释 成 数字 (如 果 启 用 警告 功能 ， 就 会 显示 警告 信 
息 ) ， 因 为 它 作 为 数字 使 用 时 是 0， 可 怜 的 用 户 会 收 到 “数字 太 小 ”的 信息 。 这 样 
的 话 ， 我 们 可 能 根本 执行 不 到 字符 串 测试 的 部 分 。 
这 里 的 无 限 循 环 还 有 另外 一 种 写法 ， 就 是 使 用 裸 块 及 redo。 这 么 写 既 不 会 执行 得 
比较 慢 ， 也 不 会 比较 快 ， 只 是 写法 不 同 而 已 。 一 般 来 说 ， 如 果 大 部 分 时 候 会 继续 循 
环 ， 就 应 该 使 用 while， 因 为 它 默 认 会 继续 循环 。 如 果 只 有 在 例外 状况 下 才 会 继续 
循环 ， 那 么 裸 块 也 许 是 比较 好 的 选择 。 

2.，， 这 个 程序 是 在 之 前 的 解答 基础 上 做 了 少量 的 修改 。 我 们 需要 在 程序 开发 过 程 中 打印 
秘密 数字 ， 所 以 在 $Debug 变 量 为 真 的 时 候 调用 print。 而 $Debug 的 值 要 么 来 自 于 环 
境 变量 ， 要 么 是 默认 值 1。 通 过 使 用 // 操 作 符 ， 我 们 在 $ENV{DEBUG} 未 定义 的 时 候 设 
置 它 为 1: 

USe 5.010; 
my 4$Debug = $ENV{DEBUG} // 313; 


my $secret = int(1 + Iand 100); 


pzint “Don't tell anyone，but the sectet number is $SecIiet.Nn” 
计 $Debug; 


如 果 不 用 Perl 5.10 的 新 特性 ， 就 必须 做 些 额外 工作 ， 


my $Debug = defined $ENV{DEBUG} ? $ENV{DEBUG} : 1; 


注 14; 真正 的 上 限 视 你 的 系统 而 定 。 如 果 你 真 想 知 道 ， 参 见 hitp:Wmww.cpan.org/doc/ 
-ATEYEWTKR/randomt 。 
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下 面 是 实现 方法 之 一 ， 参 考 了 第 六 章 中 习题 三 的 答案 。 


在 程序 开头 ， 我 们 设置 了 环境 变量 的 值 。 键 ZER0 和 EMPTY 有 假 什 (而 非 未 定义 
值 ) ， 而 键 UNDEFINED 没 有 值 。 


， 之 后 在 printf 的 参数 列表 中 ， 使 用 // 操 作 符 来 只 在 $ENV{$key} 为 未 定义 值 的 时 候 打 


印字 符 串 (undefined) : 
Use 5.010; 
$ENV{ZERO} = 0; 
$ENV{EMPTY} = 
$ENV{UNDEFINED} = undef; 


my $Longest = 0; 
foreach my $key ( keys %ENV ) 
{ 


my $key_length = jength( $key ); 
$longest = $key_length jif $key_length > $Longest; 
】} 

foreach my $key ( sort keys %ENV ) 


printf "%-${flongest}s %sNn"，$key，$ENV{$key}y //“(undefined)”; 


通过 使 用 //， 可 以 确保 对 ZERO0 和 EMPTY 键 对 应 的 假 值 不 做 处 理 。 


若 不 使 用 Perl 5.10 的 功能 ， 也 可 以 使 用 条 件 操作 符 ， 


printf "%-$flongest}s %s\n"，$key， 
defined $ENV{$key}j ? $ENV{$key} :“(undefined)"; 


第 十 一 章 习 题解 答 


这 个 答案 里 用 了 哈 希 引 用 (关于 哈 希 引用 请 参阅 《Intermediate Perl》 一 书 ) ， 但 我 
们 在 此 提供 了 可 以 不 用 它 的 方法 。 只 要 你 知道 怎么 用 ， 暂 时 别 担 心 运作 细节 。 先 把 
事情 办 完 ， 再 慢 慢 来 学 习 和 了 解 ) 。 
下 面 是 实现 方法 之 一 : 

#1/usr/binyperl 

use Module: :CoreList; 

my %nodules = %[ qheduleicorelistiiversionf5.006} )}; 

print join "\n"，keys ‰modulesj 


从 CPAN 安 装 DateTime 模 块 后， 你 只 需 按 要 求 创 建 两 个 日 期 对 象 ， 然 后 两 者 相 减 。 
但 要 注意 前 后 顺序 不 要 并 错 : 
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Use DateTime; 
my $t = 10caltime; 


my $now = DateTime->new( 


year =>”4$t[5] + 1900， 
month =>4$t[4] + 1， 
day => 4$t[3]， 
); 

my $then = DateTime->new( 
year =》$ARGV[0]， 
month =>》 $ARGV[1]， 
day =》 $ARGV[2]， 
); 


my $duzation = $now - $then; 
my @units = $duration->in_units( qw(years months days) ); 


pTintf "%d years，%d months，and %d days\n"，@units; 
如 果 选 用 Time: :Piece 模 块 ， 就 不 必 对 照 字段 位 置 选取 字段 了 ， 这 时 候 的 localtime 
返回 的 是 时 间 对 象 ， 可 以 按照 字段 名 返回 年 份 数字 和 月 份 数字 : 

USe Time::Piecej. 

my 4$t = localtimey 


my $now = DateTime->new( 


year =》$t->year， 
month => $t->mony 
day =》 $t->mday， 
) 


要 做 得 再 漂亮 一 点 ， 可 以 检查 一 下 你 键入 的 日 期 是 否 已 经 过 去 (否则 日 期 相 减 得 到 
的 间隔 时 间 会 是 一 个 负数 ， 虽 然 也 不 是 什么 大 问题 ) 。 比 较 数字 大 小 的 操作 符 同 样 
可 用 于 比较 日 期 大 小 : 


if( $now < 和 then ) 荆 
die “You enteTed a date in the futurelNn”; 


第 十 二 章 习题 解答 
1 下面 是 实现 方法 之 一 : 
foreach my $file (@ARGV) { 


my $attribs = &attributes(4file); 
. print ”'$file” $attribs.Nn”; 
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sub attzibutes { 
# 报告 某 个 给 定 文件 的 属性 
my $file = shift @_; 
Tetuzn "does not exist”unless -e $file; 


my @attrib; 
push @attrib， "readable” if -TI $file; 
push @attrib，"WTitable”jf -WwW $fjile; 
push @attrib，"executable” jif -x $file; return "exists”unless @attrib; 
"is ”。join ”and“"“，@attrib; # 返回 值 
】 
在 这 个 例子 里 ， 使 用 子 程序 仍然 是 比较 方便 的 做 法 。 对 于 每 个 文件 ， 主 循环 会 用 
一 行 来 输出 它 的 属性 ， 也 许 它 会 告诉 我 们 'cereal-killer' is executab1le 或 者 


"Sasquatch” does not exist。 


上 面 的 子 程序 会 告诉 我 们 某 个 文件 的 属性 。 当 然 ， 如 果 文 件 根本 不 存在 ， 那 就 不 需 
要 进行 其 他 测试 了 。 因 此 我 们 会 先 测试 它 是 否 存在 ， 如 果 不 存在 ， 就 提早 返回 。 
如 果 文 件 确实 存在 ， 我 们 将 会 建立 一 个 列表 用 来 存储 文件 的 属性 (如 果 你 用 特殊 
的 _ 文 件 句柄 而 非 几 11e， 以 避免 重复 调用 系统 来 测试 每 项 属性 的 话 ， 请 给 自己 加 
分 ) 。 要 (效仿 上 面 三 个 测试 ) 加 入 新 的 测试 是 很 简单 的 。 但 是 ， 如 果 所 有 测试 都 
不 成 功 呢 ? 嗯 ， 即 使 不 能 说 什么 别 的 ， 起 码 可 以 说 它 存在 ， 所 以 我 们 就 这 样 做 了 。 
如 果 @attrib 里 有 任何 元 素 的 话 ， 它 的 值 就 会 是 真 (这 是 在 布尔 上 下 文 里 ， 一 种 特殊 
的 标量 上 下 文 ) 。 这 里 的 unless 子 句 正 是 利用 了 这 个 事实 。 


不 过 ， 要 是 取得 了 某 些 属 性 ， 我 们 就 可 以 用 "and" 把 它们 连接 起 来 〈 使 用 join) 并 
且 在 前 面 加 上 "is"， 以 造 出 is readable and wzritable 这 样 的 语句 。 这 样 的 处 理 
并 不 完美 ， 如 果 有 三 个 属性 的 话 ， 它 会 说 该 文件 is readable and writable and 
executab1le。 虽 然 句子 里 的 and 有 点 多 ， 但 还 算 可 以 接受 。 如 果 想 要 再 加 上 更 多 其 
他 属性 的 测试 ， 而 你 又 在 意 这 种 事情 的 话 ， 也 许 该 将 它 的 输出 改 成 像 is Teadab1le， 
wWTitab]e，exeutable，and nonempty 这 样 。 


要 注意 的 是 ， 如 果 你 磁 巧 没有 在 命令 行 键 人 任何 文件 名 ， 则 程序 将 不 会 有 任何 输 
出 。 这 很 合理 : 如 果 你 查询 零 个 文件 的 信息 ， 本 来 就 该 得 到 零 行 的 结果 。 但 是 ， 这 
种 做 法 可 以 跟 下 一 题 的 程序 作 个 比较 。 
下 面 是 实现 方法 之 一 : 

die "No file names Suppliedl\n” unjess 6@ARGV; 


my $oldest_name = shift @ARGV; 
my $oldest_age = -NMN $oldest_namej 


foreach (@ARGV) { 
my $age = -全 
($oldest_name，$oldest_ age) = ($ ，$age) 
if $age > $oldest_age; 
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】 


printf“The oldest file was %s，and it was %.1f days old.\n ， 
$oldest_name，$oldest_agej 


程序 一 开始 会 检查 文件 名 ， 如 果 没 有 取得 任何 文件 名 ， 就 会 显示 错误 信息 。 这 是 因 


为 程序 的 用 途 是 找 出 最 旧 的 文件 ， 如 果 没 有 取得 文件 名 ， 自 然 就 不 会 有 最 旧 的 文 
件 。 


我 们 再 一 次 用 到 了 “高 水 线 (high-watermark) ”算法 。 第 一 个 文件 当然 是 目前 叭 
一 见 过 的 文件 中 最 旧 的 。 我 们 必须 记 下 它 的 年 龄 ， 并 存储 在 $oldest_age 变 量 里 。 
对 于 每 个 文件 ， 我 们 都 会 像 上 面 那 样 利用 -M 文 件 测 试 来 取得 它们 的 年 龄 (不 过 ， 这 
里 用 的 是 $_ 的 默认 参数 ) 。 一 般 所 谓 的 文件 “年 龄 ”， 通 常 指 的 是 上 次 修改 的 时 
间 ， 虽 然 你 也 可 以 做 不 同 的 解释 。 如 果 目 前 的 文件 年 龄 大 于 $oldest_age， 我 们 就 
会 以 列表 赋值 的 方式 同时 更 新 文件 名 和 年 龄 变量 的 值 。 尽 管 不 一 定 要 采取 列表 赋值 
的 方式 ， 但 它 确 实 是 一 次 更 新 数 个 变量 的 好 方法 。 
此 程序 中 ， 我 们 将 -M 返 回 的 年 龄 存 进 临时 变量 $age 里 。 如 果 不 使 用 临时 变量 ， 每 次 
都 直接 使 用 -M， 又 会 怎样 呢 ? 首先 ， 除 非 使 用 特殊 的 .文件 句柄 ， 和 否则 我 们 每 次 都 
得 向 操作 系统 询问 文件 的 年 龄 ， 这 可 能 会 多 花 一 些 时 间 〈 你 大 概 不 会 注意 到 ， 除 非 
有 成 千 上 百 个 文件 ， 就 算 真 的 有 这 人 么 多 文件 ， 也 可 能 不 会 有 什么 影响 ) 。 不 过 更 重 
要 的 是 我 们 应 该 考虑 到 如 果 有 人 在 我 们 进行 检查 的 同时 更 新 文件 的 话 ， 该 怎么 办 ? 
也 就 是 说 ， 在 我 们 第 一 次 使 用 -M 取 得 某 个 文件 的 年 龄 时 ， 发 现 它 是 目前 为 止 所 看 到 
的 最 旧 的 。 但 是 ， 在 我 们 第 二 次 使 用 -M 之 前 ， 有 人 修改 了 那个 文件 ，. 将 它 的 时 间 葵 
设 成 了 当前 的 时 间 。 这 样 一 来 ， 实 际 存 进 $oldest_age 里 的 却 可 能 是 系统 上 年 龄 最 
轻 的 文件 。 程 序 运行 的 结果 就 会 是 自 该 文件 之 后 最 肯 的 文件 ， 而 不 是 全 部 文件 中 最 
旧 的 。 这 种 问题 调试 起 来 会 非常 困难 ! 
程序 结尾 处 我 们 以 printf 输 出 文件 名 和 年 龄 ， 并 将 天 数 取 到 小 数 点 后 一 位 。 假 如 你 
将 年 龄 转换 成 天 数 、 小 时 数 及 分 钟 数 来 显示 ， 请 给 自己 加 分 。 
3 下面 是 实现 方法 之 一 : 

use 5.010; 

say “Looking for my files that are Teadable and wiitable"; 

die "No files specifiedl\n”unless @ARGV; 

foreach my $file ( @ARGV ) { 


say "$fjle is Teadabjle and wzritable”"” if -0 -IT -W $file; 


】} 
使 用 栈 式 文件 测试 操作 符 的 前 提 是 用 Perl 5.10 及 以 上 版 本 ， 因 此 我 们 使 用 use 语 名 
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开头 来 确保 版 本 正确 。 我 们 检查 @ARGV 数 组 ， 确保 其 中 有 数据 供 foreach 处 理 ， 否 则 
调用 die。 

我 们 使 用 三 个 文件 测试 操作 符 : -o 用 来 检查 我 们 是 否 拥有 文件 ，-z 用 来 检查 文件 是 
否 可 读 ， 而 -w 用 来 检查 文件 是 否 可 写 。 把 它们 堆 倒 在 一 起 成 为 -o -T -w 可 以 一 并 检 
查 是 否 通过 ， 也 就 是 我 们 需要 的 效果 。 

如 果 要 用 Perl 5.10 之 前 的 版 本 完成 以 上 功能 ， 也 只 是 稍微 多 些 代码 而 已 。 需 要 用 
pzrint 加 上 换行 符 来 模拟 say， 并 且 用 短路 操作 符 88& 来 组 合 文件 测试 ， 


print “Lookjing for my files that are Teadable and writableN\n"; 
die "No files specifiedl\n”unless @ARGV; 
foreach my $file ( 6@ARGV ) { 


pzint “$file is Yeadable and wWIitableNn" 
if( -NW$file 8 -IT _ 88 -oo ); 


第 十 三 章 习题 解答 


1. 


下 面 是 实现 方法 之 一 ， 使 用 glob: 


print “Which directory? (Default is youUr home djrectory) ” 
Chomp(my $dixr =《STDIN>); 


诗 ($dir => /NANS+YZ/) { # 空白 行 

chdir of die “Can't chdir to youT home directory: $1”; 
} else { 

chdir $dir or die "Can't chdir to '$dixr : $1”; 
} 


my @fjiles = 《#>; 
foreach (efiles) { 
print “"$_An 


首先 ， 我 们 会 显示 一 个 简单 的 提示 ， 然 后 取得 用 户 想 要 的 目录 ， 对 它 进 行 必 要 的 
人 (如 果 没 有 chomp ， 则 会 尝试 转 到 一 个 名 称 结尾 有 换行 符 的 目录 。 这 在 Unix 上 
合法 的 ， 所 以 chdizr 国 数 不 能 自动 帮 你 把 换行 符 去 掉 ) 。 


RE 的， 我 们 会 切换 到 该 目录 下 ， 遇 到 错误 就 中 断 执行 。 


如 果 名 称 是 空 的 ， 就 以 用 户主 且 录 来 代替 。 


.最 后 ， 使 用 星 号 的 g1ob 操 作 会 返回 (新 ) 工作 目录 中 所 有 的 文件 名 ， 并 自动 按 字 母 
顺序 排序 ， 然 后 逐一 输出 。 


下 面 是 实现 方法 之 一 : 


print “Which directory? 《Default is youT home directory) “; 
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chomp (my $dirz =《STDIN> ); 


if ($dir =~ /ANS*NZ/) { # 空白 行 
chdiz or die“Can't chdir to your home directory: 
$1 
]} else 1{ 
chdir $dir or die“Can't chdir to “$dir : $1 
】} 
my @files =“.k >; 持 现在 加 上 了 
foreach (sort 6@files) { 持 现在 排序 
print "$ An ; 


和 前 一 题 有 两 点 差别 : 第 一 ， 这 次 的 gl1ob 操 作 包 含 了 “点 号 星 号 ”， 它 会 匹配 所 有 
以 点 号 开头 的 文件 名 ， 第 二 ， 我 们 必须 对 所 得 到 的 列表 进行 排序 ， 因 为 取出 的 列表 
中 ， 以 点 号 开头 的 文件 名 会 和 不 以 点 号 开头 的 文件 名 交错 排列 ， 看 起 来 比较 凌乱 ， 
排序 之 后 会 清楚 很 多 。 


3. ”下面 是 实现 方法 之 一 : 


print "Which dixrectory? (Default is your home djirectory) “; 
chomp(my $dir = 《5STDIN> ); 


if ($dir =” /NANs*\Z/) { # 空白 行 

chdir or die "Can't chdir to your home directory: 
和 $1 
} else { 


chdir $dir or die “Can't chdir to "$dir' :和 1 
} 


opendir DOT，"."”or die“"Can't opendir dot: 下 !"; 
foreach (Sort teaddir DOT) { 
# next if 人 AN\./; 排 如 果 跳 过 文件 名 以 点 号 开头 的 文件 
print "$ An ; 


这 个 程序 的 结构 同 前 两 题 ， 但 是 现在 我 们 改 用 打开 目录 句柄 的 方式 。 变 更 工作 目录 
之 后 ， 我 们 会 打开 当前 目录 ， 也 就 是 DOT 目 录 句 柄 。 


为 什么 要 用 D0T 昵 ?如果 用 户 键入 了 像 /etc 这 样 的 绝对 目录 名 称 ， 那 么 打开 它 并 没 
有 什么 问题 。 但 是 ， 如 果 用 户 键入 了 像 fred 这 样 的 相对 目录 名 称 呢 ? 让 我 们 来 看 看 
会 发 生 什么 事 。 首 先 ， 让 我 们 chdiz 到 fred 目 录 ， 然 后 再 用 opendir 来 打开 fred。 可 
是 ， 这 样 会 打开 新 目录 里 的 fred， 而 不 是 原来 目录 里 的 fred。 只 有 .总 是 表示 “当前 
目录 ” (起 码 在 Unix 和 类 似 的 系统 上 是 这 样 ) 。 


readdir 函 数 会 取得 目录 里 所 有 的 文件 名 ， 然 后 再 由 程序 将 它们 排序 输出 。 如 果 以 
这 种 方式 来 做 第 一 题 ， 那 么 我 们 就 应 该 略 过 文件 名 以 点 号 开头 的 文件 。 要 这 么 做 ， 
只 需 把 foreach 循 环 里 的 注释 去 掉 就 行 了 。 


你 也 许 会 怀疑 “为 什么 要 先 chdir 呢 ? readdiz 类 型 的 函数 不 一 定 要 当前 目录 ， 它 
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其 实 可 以 作用 在 任何 目录 上 。” 最 主要 的 动机 是 想 让 用 户 只 按 一 个 键 ， 就 可 以 转移 
到 其 主 目录 。 但 是 ， 这 个 程序 也 可 以 作为 “通用 文件 管理 器 ”的 雏形 。 也 许 接 下 来 
我 们 可 以 设计 一 个 功能 ， 让 用 户 选择 要 备份 目录 里 的 哪些 文件 等 。 

下 面 是 实现 方法 之 一 : 


unlink @ARGV; 


或 者 ， 如 果 想 在 程序 遇 到 问题 时 对 用 户 提出 警告 ， 也 可 以 这 样 写 : 


foreach (@ARGV) 1{ 
unlink $_ or wazn “Can't unlink "$ : $1，continuing. .An 


在 这 里 ， 来 自命 令 调 用 行 的 每 个 条 目 都 会 被 单独 地 放 和 人 $_， 然 后 成 为 unl1ink 的 参 
数 。 如 果 其 中 出 现 问 题 ， 警 告 信 息 能 提供 线索 。 
下 面 是 实现 方法 之 一 : 

use File::8asename; 

Use File::9pecj 


my($source，$dest) = 6@ARGV; 


计 〈-d $dest) { 
my $basename = basename $sourCcej 
$dest = File::Spec->catfile($dest，$basename); 


Tename $souUTCe，$dest 
or die "Can't Tename “'$souTrce "to '$dest': $ENn"; 


程序 里 实际 做 事 的 只 有 最 后 一 行 ， 其 他 的 部 分 是 为 了 “把 文件 移动 到 目录 中 ， 而 
存在 的 。 先 在 一 开始 声明 所 用 到 的 模块 ， 再 为 命令 行 参数 取 有 意义 的 名 称 。 如 果 
4$dest 是 目录 ， 我 们 需要 从 $source 名 称 中 取出 文件 基 名 ， 并 将 它 附加 到 $dest 后 面 。 
最 后 ， 一 旦 $dest 经 过 必要 的 处 理 ，rename 函 数 会 执行 实际 改名 的 动作 。 

下 面 是 实现 方法 之 一 : 
Use File::Basenamey; 
use Fijile::Spec; 
my($source，$dest) = @ARGV; 


计 (-d $dest) { 
my $basename = basename $souTCe; 
$dest = File::Spec->catfile($dest，$basename)j 


link $source，$dest 
or die "Can't link “'$source” to '$dest' : $lNn"; 
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正如 题目 中 所 提示 的 ， 此 程序 和 前 一 题 的 十 分 相似 ， 唯 一 的 差别 在 于 这 次 执行 的 是 
Link 而 左 zename。 如 果 你 的 系统 不 支持 硬 链 接 ， 则 最 后 的 语句 可 以 改 成 这 样 ， 


PIint Would link “'$source” to “$dest” .ns 


7. ”下面 是 实现 方法 之 一 : 


use File::8asename; 
Use File::Specy; 


my $symlink = $ARGV[0] eq“-S 
shjift @ARGV if $symlink; 


my($Ssource，$dest) = @ARGV; 
评 (-d $dest) { 

my $basename = basename $5souIrce; 

$dest = File::Spec->catfile($dest，$basename); 
】} 


计 ($symlink) 
SymLink $source，$dest 
or die“Can't make Soft 1ink from“$SouIce' to “'$dest':: $lINn"; 
} else { 
1ink $source， $dest 
or die "Can't make hard 1ink from ,source' to “$dest' ; $INn 3; 


】 


开头 几 行程 序 代码 〈 在 两 个 use 声 明之 后 ) 会 先 检查 第 一 个 命令 行 参数 ， 如 果 它 是 
-5， 就 表示 所 要 建立 的 是 软 链接 ， 所 以 我 们 将 此 判断 的 真 假 值 存储 在 $symlink 变 
量 中 。 如 果 检 查 到 了 -s， 我 们 还 得 将 它 去 掉 ， 也 就 是 下 一 行程 序 代 码 所 做 的 事 。 之 
后 的 数 行程 序 代码 是 从 上 一 题 的 解答 复制 过 来 的 。 最 后 ， 依 照 $sym1link 的 值 是 真是 
假 ， 程 序 会 选择 建立 硬 链接 或 软 链接 。 最 后 ， 我 们 还 更 改 了 die 后 面 的 信息 ， 让 它 清 
楚 显 示 出 我 们 试图 建立 的 是 哪 一 种 链接 。 
8 下 面 是 实现 方法 之 一 : 
foreach ( glob(“.**#” ) ) { 
my $dest = readlink $_; 


pIint "$_ ->4$dest\n"” if defined $dest; 
} 


g1ob 操 作 所 返回 的 每 个 条 目 都 会 依次 作为 $ 的 值 。 如 果 该 条 目 是 软 链接 ， 那 么 就 会 
由 readlink 返 回 一 个 已 定义 的 值 并 且 输 出 链接 位 置 ， 如 果 不 是 ， 测 试 条件 就 会 失 
败 ， 从 而 使 得 程序 略 过 该 条 目 。 


第 十 四 章 习题 解答 


1. 下面 是 实现 方法 之 一 : 
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my @numbersj; 

push @numbers，split while “>; 

foreach (sort { $a <=> $b } 6@numbers) { 
pzintf "%20g\n" ，$ 

】 


程序 代码 的 第 二 行 实在 令 人 困惑 ， 不 是 吗 ? 喝 ， 这 是 故意 的 。 虽 然 我 们 建议 你 编写 


清楚 易 懂 的 程序 代码 ， 但 也 有 人 以 写 出 复杂 难 解 的 程序 为 乐 注 51 ， 所 以 你 最 好 能 


预先 做 好 准备 。 总 有 一 天 ， 你 也 会 需要 维护 这 种 难 懂 的 程序 代码 。 
因为 那 一 行 用 到 了 while 修 饰 符 ， 所 以 与 下 面 的 循环 等 效 : 


While (<>) { 
push @numbers，split; 


这 样 好 多 了 ， 但 也 许 还 是 有 点 不 清楚 (不 过 ， 这 种 写法 我 们 可 以 接受 。 它 还 没有 越 
过 “一 眼 难 以 看 懂 ” 这 条 线 ) 。while 循 环 每 次 会 读 人 一 行 (从 用 户 所 要 求 的 输入 
来 源 ， 也 就 是 钻石 操作 符 ) ， 接 着 (在 默认 的 状况 下 ) sp1it 会 以 空白 来 分 割 该 行 ， 
于 是 会 产生 一 个 单词 列表 ， 也 就 是 数字 列表 ， 上 毕竟 这 里 的 输入 只 不 过 是 一 系列 以 空 
白 分 隔 的 数字 而 已 。 这 样 一 来 ， 无 论 输 入 怎么 排列 ，while 循 环 都 会 将 其 中 所 有 的 数 
字 存 进 numbers 里 。 


接 下 来 ，foreach 循 环 会 逐 行 输出 排 过 序 的 列表 ， 使 用 %20g 数 字 格 式 来 让 它们 靠 右 对 
齐 。 如 果 你 使 用 %20s， 又 会 怎样 昵 ? 嗯 ， 因 为 后 者 是 字符 串 格 式 ， 所 以 它 不 会 更 改 
输出 中 的 字符 串 。 你 是 否 注意 到 样本 数据 里 同时 包含 了 1.50 和 1.5， 以 及 04 和 4 呢 ? 
如 果 你 将 它们 当成 字符 串 输 出 ， 那 么 多 余 的 零 字 符 还 会 留 在 输出 结果 里 ， 但 是 %20g 
是 数字 格式 ， 所 以 相等 数字 的 呈现 方式 也 会 相同 。 这 两 种 格式 都 有 可 能 是 对 的 ， 具 
体 使 用 哪个 要 根据 情况 决定 。 


下 面 是 实现 方法 之 一 : 


# 别 忘 了 将 哈 希 %Last_name 放 在 这 里 ， 
# 你 可 以 从 习题 说 明 里 照抄 或 是 下 载 范 例文 件 
my @keys = Sort { 
"\L$1last_name{f$aj”cmp "\L$last_name{f$b}j” # 按 姓氏 排序 
or 

"\L$a” cmp “\L$b" # 按 名 字 排 序 
} keys %1ast_namej 


foreach (@keys) { 





注 15: 


应 该 说 ， 我 们 不 建议 你 在 日 常 写 程 序 的 时 候 使 用 ， 不 过 把 编写 令 人 困惑 的 程序 当 作 游戏 
来 玩 还 是 插 有 趣 的 ， 而 花 一 两 个 周末 来 摘 懂 别人 写 的 迷津 程序 (obfuscated program) 
也 会 令 你 受益 菲 浅 。 如 果 想 看 看 这 些 程序 或 找 人 帮忙 解码 ， 请 在 下 次 Perl Monger 大 会 上 
问 问 。 你 也 可 以 在 Web 上 搜索 JAPH， 或 是 看 看 自己 能 否 解 开 第 十 四 章 结尾 处 的 迷津 程序 。 
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print“$iast_name{t$ ]，$_\n”; # 打印 ， Rubble,Bamm-Bamm “- 


对 于 这 个 程序 没什么 好 解释 的 。 它 会 依 题目 的 要 求 对 哈 希 键 进 行 排序 ， 然 后 输出 。 
我 们 之 所 以 会 先 输 姓 再 输 名 ， 纯 粹 只 为 了 好 玩 而 已 ， 题 目 里 并 没有 指定 要 用 哪 种 显 
示 方 式 。 所 以 此 题 的 答案 就 留 给 你 自己 去 解释 了 。 


3， 下 面 是 实现 方法 之 一 : 


pzrint "Please enter a StIing: "; 
chomp(my $stzing =《STDIN>); 

print “please enter a SubstTing: “; 
chomp(my $sub =《STDIN> ); 


my @places; 


for (my $pos = -1; ; ) 1{ # 三 节 式 for 循 环 的 技巧 性 用 法 
$pos = index($string，$sub，$pos + 1); # 找 出 下 个 位 置 
last jif $pos == -1; 
push @places，$pos; 


print "Locations of “$sub” in “$string” were: 6@places\n ; 


这 个 程序 的 开头 十 分 简单 。 它 要 求 用 户 键入 字符 串 ， 然 后 声明 一 个 数组 来 存储 子 串 
出 现 的 位 置 。 但 是 接 下 来 的 foz 循 环 似乎 又 是 个 “精巧 至 上 ”的 程序 代码 。 做 这 种 
事 好 玩 可 以 ， 但 绝 不 应 该 在 实际 应 用 的 程序 里 出 现 。 不 过 ， 这 里 展示 的 技巧 可 能 以 
后 用 得 到 ， 所 以 让 我 们 来 看 看 它 是 如 何 运 作 的 。 


用 my 来 声明 的 知 os 变 量 是 for 循 环 作用 域内 的 私有 变量 ， 初 始 值 为 -1。 这 里 我 们 就 
不 再 垃 关子 了 ， 直 接 告诉 你 它 的 功能 是 存储 在 较 长 的 字符 串 里 子 字符 串 的 出 现 位 
置 。for 循 环 的 “测试 ”和 “递增 ”部 分 都 是 空 的 ， 所 以 这 是 个 无 限 循环 (当然 ， 我 
们 终究 会 脱离 循环 的 ， 这 次 是 用 last) 。 
循环 主体 的 第 一 行 语句 会 从 位 置 $p os+1 开 始 寻 找 子 字符 串 的 出 现 位 置 。 也 就 是 说 ， 
在 循环 第 一 次 执行 ， 和 os 还 是 -1 的 时 候 ， 会 从 位 置 0 (字符 串 开头 ) 开始 寻找 。 接 着 
把 子 字 符 串 的 出 现 位 置 存 人 千 os。 如 果 它 是 -1， 就 不 必 再 执行 for 循 环 了 ， 所 以 我 们 
会 用 1ast 来 脱离 循环 。 如 果 $pos 不 是 -1， 我 们 就 会 将 位 置 存 进 bplaces， 然 后 再 进行 
下 一 次 循环 。 这 时 ，$pos+1 会 让 程序 在 继续 寻找 子 字符 串 时 ， 从 上 次 出 现 的 位 置 的 后 
面 一 格 开始 。 如 此 一 来 ， 我 们 得 到 了 想 要 的 解答 ， 一 切 都 又 恢复 到 了 原来 的 平静 。 
如 果 你 不 想 使 用 这 种 奇妙 的 for 循 环 ， 也 可 以 用 下 面 的 写法 来 得 到 相同 的 结果 ; 

{ 


my $pos = -1; 
while (1) 

... # 循环 体 和 上 面 代码 中 的 相同 
】} 
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】} 

处 层 的 裸 块 限制 住 了 pos 的 作用 域 。 你 不 一 定 得 这 么 做 ， 但 在 尽 可 能 小 的 有 效 范 转 
内 声明 变量 通常 是 比较 好 的 做 法 。 这 么 做 能 减少 程序 里 同时 “活着 ”的 变量 ， 让 我 
们 得 以 降低 之 后 不 小 心 将 和 os 这 个 名 称 用 到 别处 的 可 能 性 。 基 于 同样 的 道理 ， 如 果 
不 将 变量 声明 在 较 小 的 作用 域 里 ， 通 常 就 应 该 给 它 取 较 长 的 名 称 ， 以 避免 之 后 不 小 
心 重复 用 到 。 在 这 个 程序 里 ，$substzring_ position 就 是 一 个 不 错 的 名 字 。 

男 一 方面 ， 如 果 你 想 让 程序 代码 成 为 迷津 〈 你 真 坏 ! ) ， 同 一 个 程序 也 可 以 写成 如 
下 所 示 的 大 怪物 (我 们 真 坏 1 ) : 


for (my $pos = -1; -1 1= 
($pos = index 


); 
push @places，((((+$pos))))) 
"for ($pos 1= 1; # 3$pos++) 
print "position $posNn";#j 3#”]} pop 6@places; 


这 份 更 刁钻 古怪 的 程序 代码 可 以 代替 原本 程序 里 奇妙 的 for 循 环 。 到 了 这 里 ， 你 的 
知识 应 该 已 经 足以 解读 出 它 的 意义 了 。 现 在 ， 你 也 可 以 写 出 自己 的 迷津 程序 ， 让 朋 
友 隐 惊 ， 使 敌人 困惑 。 请 将 这 份 力量 用 以 为 善 ， 不 要 作恶 。 


了 假设 你 在 This is a test. 里 寻找 t 的 话 ， 结 果 会 是 什么 呢 ? 它 出 现在 10 和 13 
这 两 个 位 置 ， 它 并 不 会 出 现在 位 置 0， 因 为 它 会 区 分 大 小 写 。 


第 十 五 章 习 题解 答 


下 面 是 实现 方法 之 一 ， 重 写 第 十 章 中 的 猜 数 程序 。 我 们 不 必 使 用 智能 匹配 ， 但 可 以 
使 用 given:; 


Use 5.010; 
my $Verbose = $ENV{VERBOSE} // 1; 
my $secret = int(1 + rand 100); 


print "Don't tel1 anyone，but the secret number is $secTet.Nn” 
计 $Verbose; 


LOOP: { 


piint "Please entex 3a guess from 1 to 100: ” 
Chomp(my $guess = 《STDIN> ) ; 


让 
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my $feund 让 = 0; 


given $8uess ) { 


When( ] AAA\d+AZ/ ) { say“” 
“Too Highl"” } 

*Too Lowi” } 
”Just right1"; $found_ jit++ 


when( $ > $seczet ) { say 
When( $_ 《 $secret ) { say 
defau]t ”，{ say 
】} 


last LOOP ji $found_jit; 
Yedo LOOP; 


】 


Not a numbezrl”} 


在 第 一 个 when 中 ， 我 们 先 检 查 我 们 是 否 有 数字 。 如 果 没 有 数字 字符 ， 或 整个 字符 串 
为 空 ， 就 不 用 继续 后 面 的 数字 比较 了 。 
注意 我 们 没有 把 last 放 在 default 块 中 。 原 先 我 们 就 是 这 么 做 的 ， 但 Perl 5.10.0 会 因 
此 发 出 警告 ， 所 以 现在 去 掉 了 (或许 以 后 的 新 版 本 就 不 会 有 这 个 问题 ) 。、 


2 下面 是 实现 方法 之 一 : 
Use 5.010) 


for (1 ,. 105) { 


my $what = ”; 

given ($_) { 
when (not $_ % 3) { 4what 
when (not $_ % 5) { $uwhat 
when (not $_ % 7) { $uwhat 


】} 
Say “$ _$what"; 


3， ”下面 是 实现 方法 之 一 : 
Use 5.010; 
for( @ARGV ) 
{ 


say “Processjing $“; 


”Fizz';y continue } 
”Buzz'; continue } 
”Sausage'” } 


when( ! -e ) { say  "\tFile does not existl"”} 
when( -TY _ ) { say“\tReadablel"; continue } 
when( -W _) { say“\tWritablel"; continue } 
When( -X 、) { say“\tExecutablel"; continue } 


】 


如 果 在 for 块 中 直接 使 用 when， 就 不 必 再 写 given 了 。 接 下 来 的 程序 先 判断 文件 是 否 
存在 (其 实 是 反 过 来 判断 的 ) 。 如 果 执 行 到 第 一 个 when 块 ， 就 会 报告 文件 不 存在 并 
靠 隐 式 break 跳 出 ， 以 避免 执行 之 后 的 when 测 试 。 


在 第 二 个 when 当 中 ， 我 们 测试 文件 可 读 与 否 ， 这 次 用 的 是 -z 文 件 测试 操 作 符 。 另 外 
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还 用 到 了 特殊 的 虚拟 文件 句柄 _ 来 使 用 来 自 上 一 个 stat 文 件 的 缓存 信息 (也 就 是 文 
件 测 试 如 何 得 到 它们 的 信息 ) 。 如 果 不 写 ， 甚 实 程序 也 能 工作 ， 只 是 测试 更 繁琐 
些 。when 块 的 最 后 使 用 了 continue 来 跳 入 下 一 个 when 测 试 。 


下 面 是 使 用 given 和 智能 匹配 的 实现 方法 之 一 : 
Use 5.010; 
”Say“Checking the number <$ARGV[0]>”; 


given( $ARGV[o] ) { 
when( ! /AAN\d+AZ/ ) { say "Not a numberl" } 


my @divisors = divisors( $ ); 


my @empty; 
when( 6@divisors ~~ 6@empty ) { say “Number is prime”} 


default { say "$_ is divisible by @divisors"”} 
】} 


5 


sub divisors { 


my $number = Shift; 


my edivisors = (《); 
，foreach my $divisor ( 2 .。$number/2 ) { 
push 6@djivisors，$divisor unless $number % $divisor; 


】 


Yeturn @djivisors; 


】 


我 们 首先 汇报 正在 处 理 的 数字 。 这 个 习惯 很 好 ， 可 以 告诉 大 家 程序 还 在 运行 。 我 们 
用 尖 括 号 来 区 分 $ARGV[0] 和 字符 串 的 其 余部 分 。 


在 given 中 ， 我 们 写 了 两 个 when 块 ， 用 来 组 织 一 些 其 他 语句 。 前 面 的 when 通 过 尝试 
正则 表达 式 匹配 来 判断 我 们 确实 有 个 数字 。 如 果 那 个 模式 匹配 失败 ， 我 们 就 用 相应 
块 内 的 代码 输出 “Not a numberlt”。 这 个 when 块 有 隐 式 break 功 能 ， 可 以 退出 整个 
given 结 构 。 如 果 测 试 通过 ， 就 能 调用 divisors()。 这 个 调用 其 实 可 以 写 在 given 之 
外 ， 但 那样 就 可 能 有 风险 。 万 一 传人 的 不 是 数字 ， 好 比 是 “Fred”, 怎 么 办 ? 为 避 
免 Perl 产 生 警 告 信 息 ， 我 们 还 是 把 when 当 成 一 种 预警 机 制 。 


一 旦 除法 结束 ， 我 们 就 希望 知道 edivisors 中 是 否 有 什么 数据 。 这 时 候 当 然 可 以 在 
标量 上 下 文中 使 用 数组 获取 元 素 的 数量 ， 但 也 可 以 使 用 智能 匹配 。 我 们 早 就 知道 在 
比较 两 个 数组 的 时 候 ， 必 须要 有 同样 的 元 素 和 同样 的 顺序 。 这 里 我 们 创建 一 个 空 
组 @empty， 自 然 没 有 任何 元 素 。 如 果 拿 它 和 edivisors 比 较 ， 智 能 匹配 就 只 会 在 没 
有 因数 的 时 候 才能 成 功 。 如 果 成 功 的 话 ， 就 可 以 执行 相应 的 when 块 ， 这 一 块 也 是 靠 
隐 式 break 退 出 的 。 
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最 终 通 过 测试 的 数 一 定 不 是 质数 ， 所 以 用 default 块 来 打印 整除 数字 列表 。 
这 里 还 有 些 更 加 精彩 的 内 容 ， 虽 然 我 们 承诺 在 本 书 中 不 提 引 用 ， 而 是 留 到 
人 Perl》 再 说 。 这 里 我 们 通过 新 建 一 个 空 数组 来 检查 @divisors 是 否 为 
空 ， 但 其 实 这 是 多 余 的 ， 只 要 用 匿名 数组 一 次 便 可 成 形 ; 
when( edivisors "~ [] ) { .…， } 


5. ”下 面 是 基于 上 题 的 实现 方法 之 一 : 


use 5.010; 
say "Checkjing the number 《“$ARGV[O]>”; 
my $favorite = 42; 


given( $ARGV[o] ) { 
When( ! /AN\d+AZ/ ) { say“"Not a numberl”} 


my @divisors = divisors( $ARGV[0] ); 
whenf edivisors ~ ~“ 2 ){# 如果:2 在 edivisors 里 面 


Say "$_ is even "; 
Continue; 


when( 1( edivisors “~ 2 ) ) { # 如 果 2 不 在 edivisors 里 面 
say "$_ is 0dd"; 
continue; 


】 


When( 6@divisors ”> $favorite ) { 
Say “"$_ is divisible by my favorite number”; 
continue; 


】 


When( $favorite ) { # $_ >” $favorite 
say "$_ is my favorite number "; 
continue; 


】} 


my @empty; 
when( @divisors >” @enpty ) { Say“Number is prime”} 


default { say "$_ is divisible by @divisors”】} 
】} 


S 


divisors { 
my $numbez = Shift; 


SU 


my @divisors =〈); 
foreach my $dijvisor ( 2 .。 ($ARGV[o]/2 + 1) ) { 
push @divisors，$divisor unless $numbezr %% $divisor; 
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} 


Teturn @divisors; 


这 个 扩展 练习 增加 了 更 多 的 when 块 来 完成 更 多 的 条 件 判断 。 一 旦 获得 edivisors 数 
组 ， 就 可 以 用 智能 匹配 来 检查 其 中 内 容 。 如 果 2 在 edivisors 之 中 ， 就 可 以 断定 这 是 
偶数 。 我 们 在 报告 之 后 用 显 式 continue 来 驱动 given 结 构 执 行 之 后 的 when 测 试 。 对 
于 奇数 的 情况 ， 同 样 使 用 智能 匹配 ， 只 是 对 结果 取 反 。 同 样 的 技巧 还 可 以 判断 我 们 
喜欢 的 数字 是 否 在 edivisotfs 中 ， 或 者 输入 的 恰巧 就 是 我 们 喜欢 的 数字 。 


第 十 六 章 习 题解 答 


1 


下 面 是 实现 方法 之 一 : 


chdir “/ ”or die“Can't chdir to Toot djirectory: $I 7” 
exec '15" ，'-]' or die“"Can't exec 15: $|; 


第 一 行程 序 代码 会 将 当前 工作 目录 切换 到 根 目 录 ， 它 的 名 称 总 是 固定 的 。 第 二 行使 
用 了 多 参数 的 exec 函 数 来 将 结果 传送 到 标准 输出 。 我 们 也 可 以 使 用 单 参数 的 形式 ， 
但 上 面 的 做 法 并 没什么 不 好 。 


下 面 是 实现 方法 之 一 : 


open STDOUT， "> ， "1s.out' or die“"Can't Write to 15.0ut: $[ 
0pen 9TDERR， ">"， "1s.err” or die "Can' tt Write to 1s.err: $I[ 
chdir '/” or die "Can't chdir to root directory: $!; 

exec '15 ， -1]， or die "Can't exec 15: $1”; 


程序 的 前 两 和 5 会 重新 打开 STDOUT 与 STDERR 并 将 它们 重 定向 到 当前 工作 目录 下 的 两 个 
文件 里 (在 切换 工作 目录 之 前 ) 。 接 下 来 ， 在 工作 目录 切换 之 后 ， 将 会 执行 显示 目 
录 清 单 的 命令 ， 并 把 数据 传送 到 之 前 打开 的 两 个 文件 里 。 


最 后 一 个 die 所 显示 的 信息 会 出 现在 哪里 呢 ? 当然 ， 它 会 跑 到 1s.err 里 ， 因 为 在 那 
时 STDERR 已 经 被 定向 到 该 文件 里 了 。 至 于 chdiz 后 面 的 die 也 会 将 信息 传送 到 serr 
里 。 可 是 ,… 如 果 在 第 二 行 上 无 法 重新 打开 STDERR， 错 误 信 息 又 会 在 哪里 出 现 呢 ? 它 
会 在 原本 的 STDERR 上 出 现 。 这 是 因为 当 STDIN、STDOUT、STDERR 这 三 个 标准 文件 句 
柄 重新 打开 失败 时 ， 原 先 的 文件 句柄 仍然 会 继续 打开 着 。 
下面 是 实现 方法 之 一 : 

二 (date” = /AAS/) { 

pzint "8o playlxn"; 


} else { 
print “get to WorklNn”; 
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因为 Saturday 〈 周 六 ) 和 Sunday ( 周 日 ) 都 是 以 S 开 头 ， 而 且 date 命 令 的 输出 结果 又 
是 以 “今天 是 星期 几 ” 作 为 开始 ， 所 以 这 个 程序 十 分 简单 ， 只 要 检查 date 命 令 的 输 
出 ， 看 看 它 是 否 以 S 开 头 就 行 了 。 还 有 许多 更 复杂 的 做 法 可 以 获得 相同 的 结果 ， 其 
中 大 部 分 我 们 都 介绍 过 了 。 

不 过 ， 如 果 要 实际 应 用 这 个 程序 ， 我 们 大 概 会 将 模式 换 成 /A(SatlSun)/。 它 会 稍 
微 慢 一 点 点 ， 但 几乎 没什么 影响 ， 再 说 ， 这 对 程序 维护 员 而 言 要 好 懂 多 了 。 


4. ”要 捕获 某 些 信号 ， 就 要 设置 信号 处 理 句 柄 。 和 本 书 之 前 展示 的 技术 那样 ， 我 们 需 

要 做 一 些 重 复 性 的 工作 。 对 每 一 个 信号 处 理 句柄 子 程序 ， 我 们 都 设置 一 个 state 变 
量 ， 这 样 每 次 调用 子 程序 时 都 可 以 访问 之 前 累计 的 数字 。 我 们 用 foreach 循 环 依次 
将 正确 的 子 程序 名 称 赋值 给 %sIG 中 的 适当 键 。 最 后 创建 一 个 无 限 循环 ， 让 程序 一 直 
运行 着 ， 准 备 接受 信号; 

use 5.010; 

Sub my_hup_handler { state $nj;j say “Caught HUP: “， ++$n } 

.Sub my_usr1_handler { state $nj Say “Caught USR1: “，++$n ]} 


sub my_usTr2_handler { state $n; say “Caught USR2: “，++$n } 
Sub my_usr2_handler { say “Caught INT。 Exiting.; exit } 


say “Ia $$"; 


foreach my $signal ( quw(int hup usrd usT2) ) { 
$SIG{ uc $signal } = "my_4{fsignaL}j_handler"; 
】 


whjile(1) { Sleep 1 }; 
我 们 需要 另外 打开 一 个 终端 会 话 来 运行 程序 以 发 送信 号 ， 


$ kil1 -HUP 61203 
$ perl -e "kill HUP => 61203” 
$ perl -e “kill USR2 => 61203 


该 程序 的 输出 显示 每 次 信号 来 到 时 我 们 已 经 见 过 的 次 数 : 


$ per1l signal_catcher 
I am 61203 

Caught HUP: 1 

Caught HUP: 2 

Caught USR2: 1 

Caught HUP: 3 

Caught USR2: 2 

Caught INT。Exiting. 


第 十 七 章 习 题解 答 


1 下面 是 实现 方法 之 一 : 
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my $filename =“path/to/sample_text ' ; 
open my $fh，“《'`，$filename 

or die“"Can't open “$filename : $I 
Chomp(my @stIrings =《FILE>); 
while (1) 

Print “Please enter a patterzrn: “; 

chomp(my $pattern =《STDIN> ); 

last if $pattern =~ /NANS+NZ/1; 

my @matches = eval { 

grep /$pattezn/， 1 


儿 

计 ($) { 

print “ExTOT: $@”; 
else { 

my $count = @matches; 

pzint “There were $count matchjing Strings:Nn"， 

map “"$_\n"，@matches; 

】 


print "NAn"; 


此 程序 使 用 eval 块 来 捕获 使 用 正则 表达 式 时 可 能 发 生 的 错误 。 在 eval 块 里 ，grep 会 
筛选 出 字符 串 列表 中 匹配 模式 的 字符 串 。 


一 旦 eval 执 行 完毕 ， 程 序 就 会 汇报 错误 信息 或 显示 匹配 的 字符 串 。 请 注意 ， 为 了 在 
每 个 字符 串 后 面 加 上 换行 符 ， 我 们 使 用 map 来 对 输出 进行 “unchomp ”操作 。 


这 个 程序 非常 简单 。 有 许多 种 取得 文件 列表 的 方法 ， 不 过 我 们 现在 关心 的 只 是 当前 
工作 目录 内 的 文件 ， 所 以 用 g1ob 提 取 就 好 了 。 我 们 通过 foreach 把 取得 的 每 个 文件 
名 存 到 默认 的 控制 变量 $_ 中， 因为 st at 默认 也 是 使 用 这 个 变量 的 ， 所 以 能 省 下 很 多 
事 。 在 stat 外 围 加 上 圆 括号 来 取 列表 切片 ， 


foreach ( glob( '*#* ) ) { 
my( $atime，4mtjime ) = 〈stat)[8,9]; 
printf “"%-20S %10d %10d\n ，$_ ，$atime， 和 $mtimey; 


】 
我 们 查阅 stat 的 文档 后 知道 ， 位 于 第 8 和 第 9 索引 位 置 上 的 就 是 我 们 需要 的 时 间 改 。 
文档 作者 已 经 非常 贴心 地 标注 了 列表 的 每 个 索引 位 置 上 的 字段 意义 ， 所 以 不 用 我 们 
费力 数 就 能 知道 该 用 哪个 下 标 。 
如 果 不 想 用 $_， 当 然 也 可 以 自己 指定 控制 变量 ， 


foreach my $file ( glob( '*” ) ) 
my( $atime，$mtime ) = (stat $file)[8,9]; 
printf “"%-20s %10d %10d\n"，$fjile，$atime，$mtime; 


这 道 题 的 解答 是 在 前 题 基础 上 继续 的 。 这 里 的 解 题 关 键 是 ， 用 localtime 把 纪元 时 
间 转 换 成 YYYYMM-DD 这 样 的 日 期 格式 。 在 把 解答 集成 到 完整 程序 之 前 ， 让 我 们 . 
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先 来 看 看 如 何 完成 这 个 格式 转换 工作 。 假设 时 间 惟 放 在 $_ 里 面 〈 它 是 map 的 控制 变 
量 ) 。 
我 们 从 1ocaltime 文 档 查 到 相应 字段 的 索引 位 置 ; 

my( $year，$month，4$day ) = (localtime)[5,4,3]; 


我 们 注意 到 ，1ocaltime 返 回 的 年 份 数字 需要 另外 加 上 1900， 月 份 数字 需要 另外 加 
上 1， 才 符合 我 们 平时 的 习惯 ， 所 以 另外 做 如 下 调整 ， 
$year += 1900; $month += 1; 
最 后 ， 再 把 这 些 数据 组 合成 指定 的 格式 ， 并 对 单个 数字 的 月 与 日 部 分 添 人 前 置 零 : 
spTintf “%4d-%02d-%02d  ，$yeaT，$month，$day; 


对 一 组 时 间 改 进行 这 样 的 转换 ， 只 需 用 map 依 次 变形 。 请 注意 ， localtime 黑 认 不 会 
使 用 $ 变量 ， 所 以 必须 显 式 提 供 参数 ， 


my @times = map { 
my( $yearz，$month，$day ) = (localtime($_))[5,4,3]; 
$year += 1900; $month += 1; 
Sprintf '%4d-%02d-%02d '， 8 $month， $day; 
} eepoch _. timesj 


这 就 是 要 替换 之 前 程序 中 stat 那 行 的 代码 ， 所 以 最 终 的 结 井 果 应 该 是 : 


foreach my $file ( 8lob( “*” ) ) { 
my( $atime，$mtime ) = map 
my( $year，$month，$day ) = (localtime($_))[5,4,3]; 
$year += 1900; $month += 1; 
spTintf “%4d-%02d-%02d ，$yea7， $month， $day; 
} (stat $file)[8,9]; 


piintf，“"%-205 %105 %105SNn " ，$file，$atime，$mtimey3 


设计 本 题 的 初衷 在 于 引导 读者 使 用 第 十 七 章 提 到 的 各 个 技术 要 点 。 当 然 除 此 之 外 还 


有 其 他 实现 方式 ， 而 且 还 更 容易 些 。 比 如 Perl 自 带 的 POSTX 模 块 ， 它 有 一 个 strftime 
子 程序 ， 可 以 像 sprintf 那 样 把 时 间 格 式 化 为 特定 格式 的 字符 串 ， 它 所 接收 的 时 间 参 
数 和 localtime 返 回 的 内 容 完全 一 致 ， 和 写 起 来 
更 为 简洁 ， 


use POSIX qw(strftime); 


foreach my $file ( glob( '*' ) ) 二 
my( $atime，$mtjime ) = map 
strftime( '%Y-%m-%d' ，1localtime($_ ) ); 
} (stat $file)[8,9]3 


pzintf “"%-205 %105 %10S\n" ，$file，$atime，$mtime; 
】} 
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附录 B 


超越 “小 骆驼 ” 


本 书 已 经 涵盖 了 很 多 知识 点 ， 但 难免 还 有 我 们 没有 提 及 的 内 容 。 在 这 个 附录 里 ， 我 们 将 
会 多 谈 谈 Perl 能 做 什么 ， 并 提供 深入 了 解 Per]l 的 参考 资料 。 接 下 来 要 介绍 的 东西 是 攻 新 
的 ， 因 此 在 你 阅读 本 书 时 ， 可 能 部 分 内 容 已 经 有 所 变动 。 这 也 是 为 什么 我 们 常常 建议 你 
自己 查阅 最 新 文档 的 原因 。 我 们 并 不 期 望 每 位 读者 都 仔细 阅读 本 附录 ， 但 最 好 能 快速 济 
览 一 遍 标 题 ， 这 样 以 后 某 人 对 你 说 “你 根本 不 能 在 项 目 X 里 用 Perl， 因 为 Perl 不 能 实现 Y 
功能 ”时 ， 你 可 以 好 整 以 暇 地 予以 反击 。 


有 一 点 很 重要 ， 这 里 提 过 之 后 接 下 来 就 不 用 反复 提醒 了 : 我 们 在 此 处 没有 介绍 的 其 他 重 
要 特性 会 放 到 《Intermediate Perl》 (也 就 是 O'Reilly 的 “ 羊 驼 书 ”) 中 详 加 益 述 。 你 绝 
对 应 该 读 一 读 “ 羊 驼 书 ”， 尤 其 是 在 (独自 或 与 他 人 合作 ) 写 出 上 百 行程 序 代码 时 。 没 
准 你 已 经 对 Fred 与 Barney 的 故事 感觉 厌烦 了 ， 想 要 知道 另外 世界 中 的 7 个 人 [ 哇 !1 在 海难 
中 漂 沪 到 荒 岛 上 之 后 的 求生 故事 。 


在 “ 羊 驼 书 ”之 后 ， 你 还 可 以 去 看 《Mastering Perl》 《也 就 是 D'Reilly 的 “小 羊 驼 
书 ”) 。 这 本 书 涉及 了 日 常 Perl 编 程 中 遇 到 的 问题 ， 例 如 : 性 能 检 负 和 调试 、 配 置 文 
件 、 日 志 记 录 等 等 。 还 介绍 了 如 何 分 析 他 人 代码 并 最 终 将 它们 与 自己 的 应 用 程序 集成 。 


此 外 ， 还 有 许多 很 棒 的 书 可 以 读 。 不 过 根据 你 所 用 的 Perl 版 本 的 不 同 ， 请 在 花 钱 买书 之 
前 先 看 一 下 perifag2 或 者 per1book 里 面 推荐 的 书目 ， 免 得 买 来 不 知 所 云 或 者 内 容 过 时 的 
书 。 


注 1: “可 以 把 他 们 称 为 “漂流 者 〈Castaways) ”。 
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更 多 文档 


Perl 自 带 的 文档 乍 看 似乎 浩如烟海 ， 不 过 你 可 以 用 关键 字 在 文档 中 搜索 。 搜 索 特 定 主题 
时 ， 从 perltoc 【总 目录 ) 和 perifag (常见 问答 集 ) 这 两 节 开 始 会 比较 好 。 在 大 部 分 的 系 
统 上 ，Pperldoc 命 令 应 能 查 到 Perl 核 心包 、 已 安装 的 模块 以 及 相关 程序 的 使 用 说 明 (包括 
perldoc 本 身 ) 。 也 可 以 到 ztp:Wperldoc.perLorg 上 在 线 阅读 ， 虽 然 那里 永远 是 最 新 版 本 的 
Perl 文 档 。 


正则 表达 式 

没 错 ， 正 则 表达 式 的 功能 比 我 们 所 提 到 的 还 多 。Jeffrey Friedi 的 著作 《Mastering Regular 
Expressions》 (O"Reilly) 是 我 们 读 过 的 在 这 方面 最 出 色 的 技术 书籍 之 一 [E21 。 该 书 
有 一 半 内 容 是 讨论 一 般 的 正则 表达 式 ， 另 一 半 内 容 则 是 讨论 Peri 的 正则 表达 式 ， 以 及 其 
他 语言 当中 采用 的 兼容 Perl 正 则 表达 式 (Perl-Compatible Regular Expressions， 简 称 为 
PCRE) 的 内 容 。 该 书 深 入 介绍 了 正则 表达 式 引 擎 内 部 的 运作 方式 ， 并 解释 为 什么 某 些 
模式 的 写法 会 比 其 他 写法 更 好 、 更 有 效率 。 所 有 想 要 认真 学 习 Perl 的 人 都 应 该 看 看 这 
本 书 。 此 外 ， 也 请 参阅 perlre 文 档 〈 以 及 更 新 版 本 Perl 中 加 入 的 periretui 和 lperlrequick 文 
档 ) 。 当 然 ，“ 羊 驼 书 ”和 《Mastering Perl》 也 有 很 多 关于 正则 表达 式 的 内 容 。 


包 


包 [ 注 31 可 以 让 你 对 源 代码 划分 多 个 名 字 空 间 (namespace) 。 想 象 一 下 ， 有 10 个 程 
序 员 正在 合力 开发 某 个 大 型 项 目 。 当 你 在 开发 这 个 项 目 时 ， 使 用 了 $fred、@barney、 
%betty、8g&wilma 等 全 局 变量 ， 如 果 我 不 小 心 也 用 了 这 些 变量 名 称 ， 会 有 什么 后 果 昵 ? 包 
会 让 我 们 分 别 保存 这 些 变量 名 称 ， 我 可 以 访问 你 的 $fred， 当 然 你 同样 也 可 以 访问 我 所 
定义 的 这 些 变量 而 不 会 有 意外 发 生 。 如 果 你 想 让 Perl 更 灵活 ， 使 用 包 是 必要 的 ， 它 也 可 
以 让 我 们 管理 更 大 的 程序 。“ 羊 驼 书 ”对 包 也 有 详细 的 探讨 。 





注 2: 这 么 说 并 不 是 因为 出 版 商 是 DReilly， 而 是 因为 书 确实 很 棒 。 

注 3: “ 包 (package) ”这 个 名 字 可 能 是 个 不 幸 的 选择 ， 它 没有 让 人 正确 地 联想 到 名 字 空 间 ， 
而 是 让 人 想到 打包 的 代码 全 (而 这 在 Perl 里 其 实 是 模块 或 库 ) 。 包 其 实 是 全 局 符号 名 的 全 
合 ， 把 $fred 或 Buwilma 之 类 的 东西 收集 在 一 起 。 而 名 字 空 间 和 代码 包 (chunk of code) 是 
两 个 概念 。 
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扩展 PerI 的 功能 

在 Perl 相 关 的 论坛 中 常见 的 忠告 之 一 就 是 :， “不 要 重新 发 明 轮 子 。” 你 可 以 拿 其 他 人 已 
经 写 过 的 程序 代码 去 使 用 。 最 常见 的 方式 就 是 利用 基 个 函数 库 或 模块 来 扩展 Perl 的 功 
能 。 有 许多 模块 会 跟着 Perl 一 起 被 安装 ， 至 于 其 他 模块 则 可 以 在 CPAN 找 到 。 当 然 ， 你 也 
可 以 编号 一些 属于 自己 的 函数 库 或 模块 。 


函数 库 

许多 程序 语言 都 提供 了 和 Perl 一 样 的 函数 库 支 持 。 函 数 库 也 就 是 为 某 个 共同 目标 编写 的 
子 程序 (subroutine) 的 集合 。 不 过 近来 在 Perl 的 使 用 上 ， 使 用 模块 的 场合 比 使 用 函数 
库 的 多 。 


编写 自己 的 模块 

在 一 些 少见 的 情况 下 ， 你 也 可 能 找 不 到 需要 的 模块 。 此 时 ， 资 深 的 程序 员 可 以 用 Perl 
或 共 他 程序 语言 (常常 是 C 语 言 ) 写 出 一 个 新 的 模块 。 这 部 分 的 说 明 可 以 在 perlmod 和 
perlmodlit 文 档 里 找到 。“ 羊 驼 书 ”也 谈 到 了 如 何 编写 、 测 试 以 及 发 布 模块 。 


数据 库 


如 果 你 手 上 有 一 个 数据 库 ，Perl 自 然 是 可 以 访问 和 操作 它 的 。 这 一 节 会 介绍 几 种 常见 的 
数据 库 类 型 。 我 们 之 前 已 经 在 第 十 五 章 中 看 到 过 有 关 DBI 模 块 的 用 法 了 。 


直接 访问 系统 数据 库 


Perl 可 以 直接 访问 某 些 系统 数据 库 ， 但 有 时 需要 借助 一 些 相关 的 模块 。 比 如 Windows 的 
注册 表 (Registry) 数据 库 (记载 了 机 器 级 的 设 定 ) 、Unix 的 密码 数据 库 ( 列 出 了 用 户 
名 称 与 相关 信息 ) 以 及 域名 数据 库 (将 了 地 址 转换 成 机 器 名 ， 或 是 做 反 向 转换 ) 。 


访问 平面 文件 数据 库 


如 果 想 直接 访问 自己 的 平面 文件 数据 库 ， 也 可 以 借助 模块 完成 (似乎 每 一 两 个 月 就 会 出 
现 新 的 模块 ， 所 以 这 里 提供 的 列表 迟早 都 会 过 时 ) 。 


其 他 操作 符 和 函数 


由 于 篇 幅 有 限 ， 我 们 无 法 介绍 所 有 的 操作 符 和 函数 : 从 , .标量 操作 符 到 ， 标 量 操作 符 ， 
从 wantatTay 到 goto (1!) ， 以 及 从 caller 到 chr。 请 参阅 perlop 及 perlpusrnc 文 档 。 








越 “ 小 骆驼 ” 上 345 


使 用 tr 进行 转 换 
虽然 tr/// 操 作 符 看 起 来 像 正 则 表达 式 ， 但 它 实 际 上 是 把 某 组 字符 转换 成 另 一 组 字符 的 
操作 符 。 它 还 可 以 迅速 算出 特定 字符 的 出 现 次 数 。 请 参阅 periop 文 档 。 


Here 文 档 

Here 文 档 是 一 次 引用 多 行 字符 串 的 好 方法 。 请 参阅 perldata 文 档 。 
人 2 

数学 


Per 几乎 能 处 理 所 有 你 能 想象 得 到 的 任何 数学 计算 。 


高 级 数学 函数 

Perl 内 置 所 有 基本 的 数学 函数 平方根、 余弦、 对 数 、 绝 对 值 等 ) ， 细 节 请 参考 perlfonc 
文档 。 虽 然 省 略 了 某 些 函 数 (比如 正切 或 以 10 为 底 的 对 数 ) ， 但 它们 可 以 用 现 有 的 函数 
轻松 组 合 而 成 ， 或 是 利用 简单 的 模块 完成 请 参考 p05IX 模 块 ， 里 面 有 许多 常用 的 数学 
函数 ) 。 


虚数 与 复数 


虽然 虚数 与 复数 不 属于 Perl 的 核心 功能 ， 不 过 可 以 借助 模块 来 处 理 。 这 些 模块 能 重 载 党 
见 的 操作 符 与 函数 ， 让 你 在 处 理 复数 时 还 能 继续 使 用 * 做 乘法 ， 或 用 sqrt 计 算 平 方 根 。 请 
参考 Math: :CompIex 模 块 。 


超大 与 超 高 精度 数字 


如 果 需 要 ，Perl 可 以 处 理 任意 大 的 数字 ， 而 且 保 持 高 精度 。 举 例 来 说 ， 你 可 以 计算 2 000 的 
阶乘 ， 或 是 计算 工 到 小 数 点 之 后 一 万 位 。 请 参考 Math: :BigInt 及 Math: :BigFloat 模 块 。 


列表 与 数组 
Pen 有 许多 特性 ， 可 以 让 人 们 非常 容易 地 对 整个 列表 或 数组 进行 处 理 。 
map 与 grep 


在 第 十 六 章 中 ， 我 们 曾 讨论 过 列表 处 理 操作 符 map 和 grep。 限 于 篇 幅 ， 我 们 无 法 介绍 它们 
的 全 部 功能 。 请 参阅 perlfurc 文 档 ， 里 面 有 进一步 的 信息 及 范例 。 也 可 以 参 基 “ 羊 驼 书 ” 
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来 获取 更 多 使 用 map 与 grep 的 方式 。 


位 与 块 

我 们 可 以 用 vec 操 作 符 处 理由 位 组 成 的 数组 ， 即 位 串 (bitstring) 。 你 可 以 设 定 第 123 位 
的 值 ， 清 除 第 456 位 的 值 ， 或 检查 第 789 位 的 值 。 位 串 的 大 小 没有 上 限 。vec 操 作 符 的 块 
长 度 可 以 设 成 2 的 乘 害 ， 这 在 你 需要 把 字符 串 视 为 由 半 字 节 (nybble) 所 组 成 的 数组 时 很 
有 用 。 请 参阅 perlpunc 文 档 或 者 阅读 《Mastering Perl》 一 书 。 


格式 化 - 

Per1l 的 格式 化 功能 可 让 你 轻易 制作 出 具有 自动 页 首 、 格 式 固定 的 报表 。 事 实 上 ， 这 是 
Larry 当 初 开发 Perl 的 主要 原因 作为 实用 摘录 及 报表 语言 。 不 幸 的 是 它 的 功能 十 分 有 
限 。 使 用 格式 化 最 让 人 心 碎 的 ， 莫 过 于 发 现 格式 化 的 功能 无 法 满足 日 新 月 异 的 需求 。 如 
果真 是 如 此 ， 程 序 输出 部 分 就 得 从 头 写 起 ， 换 成 使 用 格式 化 之 外 的 方式 。 不 过 话 又 说 回 
来 了 ， 如 果 你 确定 格式 化 能 满足 目前 及 未 来 的 所 有 需求 ， 它 还 是 个 相当 酷 的 功能 。 请 参 
阅 periorm 文 档 。 


网 络 连接 与 进程 间 通 信 


Per 可 以 支持 系统 上 运行 的 程序 相互 闻 彼 此 通信 。 本 节 展 示 几 种 常见 方式 。 


System V 进 程 间 通信 

Perl 支 持 所 有 System V 进 程 间 通 信 的 标准 函数 ， 包 括 : 消息 队列 (message queue) 、 信 
号 量 (semaphore) 、 共 享 内 存 (shared memory) 等 。 当 然 ，Perl 里 的 数组 和 C 语 言 不 
同 ， 并 不 是 存储 在 连续 的 内 存 块 中 圭 3 ， 因 此 共享 内 存 无 法 直接 共享 Per 数据。 不 过 ， 
有 些 模块 可 以 帮忙 转译 数据 ， 让 Perl 的 数据 看 起 来 像 存 储 在 共享 内 存 里 。 请 参阅 perlpPrnc 
和 perlipc 文 档 。 


套 接 字 

Perl 对 TCP/IP 套 接 字 〈socket) 提供 了 完整 的 支持 ， 所 以 只 要 用 Perl 就 可 以 写 出 Web 服 务 
器 、Web 浏 览 器 、Usenet 新 闻 服 务 器 或 客户 端 、finger 服 务 器 或 客户 端 、FTP 服 务 器 或 客 
户 端 、SMTP/POP/SOAP 的 服务 器 或 客户 端 以 及 Internet 上 所 用 的 任何 协议 的 客户 端 或 服 





注 2: 事实 上 ， 说 Perl 的 数组 存储 在 “一 块 内 存 ” 里 面 通常 是 不 对 的 。 它 们 几乎 一 定 会 分 散在 
许多 小 块 的 内 存 中 。 
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务 器 。 你 可 以 在 Net: :名 字 空 间 里 找到 很 多 实现 这 类 协议 的 模块 ， 并 且 有 许多 还 是 Perl 自 
带 的 。 


当然 ， 你 不 需要 了 解 底层 技术 细节 ， 因 为 所 有 常见 的 协议 都 已 经 有 模块 可 用 了 。 比 如， 
你 只 要 用 LWP 模 块 再 加 上 一 两 行程 序 代码 ， 就 能 做 出 Web 服 务 器 或 客户 端 站 3 。 如 果 
想 借 鉴 高 质量 的 程序 代码 ， 不 妨 参 照 一 下 LWp 模 块 。 事 实 上 ， 它 是 一 系列 互相 支持 的 模 
块 ， 它 已 经 实现 出 了 Web 上 绝 大 部 分 的 功能 。 至 于 其 他 协议 ， 请 用 协议 名 称 来 搜索 相关 
的 模块 。 


安全 

Perl 提 供 了 不 少 与 安全 有 关 的 强大 功能 ， 这 让 Perl 程 序 比 相应 的 C 程 序 更 加 安全 。 其 中 最 

重要 的 可 能 就 是 一 般 称 为 污染 检查 (taint checking) 的 数据 流 分 析 。 当 它 被 启用 时 ，Penl 

会 记 住 妓 些 数 据 是 来 自用 户 或 环境 的 (因此 不 值得 信 惠 ) 。 一 般 来 说 ， 当 这 些 所 谓 “ 受 

.污染 的 (tainted) ”数据 对 其 他 进程 、 文 件 或 目录 产生 影响 时 ，Perl 会 禁止 该 项 操作 并 
中 断 程 序 。 这 并 不 完美 ， 但 却 能 有 效 避 免 安 全 相关 的 问题 。 还 有 在 这 里 讲 不 完 的 细节 ， 

请 参考 perisec 文 档 。 


程序 调试 

Perl 自 名 了 一 个 很 棒 的 调试 器 ， 它 支持 断 点 (breakpoint) 、 观 察 点 (watchpoint) 、 单 
步 执行 (single-stepping) 以 及 所 有 命令 行 调试 器 该 有 的 功能 。 它 其 实 是 用 Perl 写 成 的 ，- 
如 果 它 本 身 有 缺陷 ， 我 们 也 不 知道 该 如 何 对 它 进行 调试 。 除 了 基本 的 调试 器 命令 之 外 ， 
你 还 可 以 在 程序 运行 到 一 半 的 时 候 从 调试 器 来 运行 Per]l 程 序 代码 调用 子 程序 、 改 变 
变量 甚至 是 重新 定义 子 程序 。 最 新 的 信息 ， 请 参考 perldebrvsg 文 档 。 另 外 “ 羊 驼 书 ”对 调 
试 器 的 使 用 作 了 详细 介绍 。 


另 一 个 调试 技巧 就 是 使 用 B: :Lint 模 块 。 这 个 模块 能 对 潜在 的 问题 发 出 警告 ， 而 这 些 问 
题 可 能 即使 打开 了 -w 开 关 都 不 会 发 现 。 





注 3: 虽然 借助 LWP 模 块 可 以 很 轻松 地 实现 可 下 载 页 面 或 图 像 的 “Web 浏 览 器 ”， 但 如 何 实际 显 
示 给 用 户 看 又 是 另 一 回 事 。 你 可 以 利用 Tk 或 Gtk 桂 件 来 驱动 XI1 进 行 显 示 ， 或 使 用 Curses 
模块 在 字符 终端 上 绘图 。 别 无 他 法 ， 从 CPAN 下 载 并 安装 合适 的 模块 就 是 了 。 
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命令 行 选项 


Perl 有 许多 不 同 的 命令 行 选项 ， 其 中 有 不 少 选 项 能 让 你 直接 从 命令 行 写 出 有 用 的 程序 。 
请 参阅 periruz 文 档 。 


内 置 变量 


Per1 有 一 大 堆 内 置 变 量 (比如 6@ARGV 和 $o) ， 它 们 能 提供 非常 有 用 的 信息 或 者 帮助 控制 
Perl 的 运作 方式 。 请 参阅 perivar 文 档 。 


语法 扩展 


Perl 语 法 还 有 更 多 技巧 ， 包 括 continue 块 与 BEGIN 块 。 请 参阅 perlsyn 和 Perizaod 文 档 。 


引用 


Perl 的 引用 (reference) 跟 C 语 言 的 指针 (pointer) 差不多 ， 不 过 工作 原理 比较 类 似 
Pascal 或 Ada 里 的 相应 功能 。 引 用 会 “指向 ” 某 个 内 存 位 置 ， 但 因为 没有 指针 运算 和 内 存 
的 直接 分 配 、 释 放 功 能 ， 所 以 你 可 以 确定 任何 引用 都 是 有 效 的 。 引 用 可 以 用 来 实现 面向 
对 象 程 序 设计 、 复 杂 的 数据 结构 以 及 其 他 有 用 的 技巧 。 请 参阅 perlre 庆 ut 和 perirej 文 档 。 
“ 羊 驼 书 ” 里 有 详细 讨论 引用 的 内 容 。 


复杂 的 数据 结构 
引用 能 够 让 我 们 用 Perl 建 立 复杂 的 数据 结构 。 比 如 需要 二 维 数组 的 话 ， 就 可 以 通过 数组 
的 引用 来 构造 。 哇 3] Perl 还 能 构造 更 加 有 趣 的 数据 结构 ， 比 如 由 哈 希 组 成 的 数组 、 由 哈 
希 组 成 的 哈 希 、 由 哈 希 的 数组 组 成 的 哈 希 等 等 IE4] 。 请 参阅 perldsc (数据 结构 范例 ) 
Perliol (由 列表 组 成 的 列表 ) 这 两 个 文档 。“ 羊 驼 书 ”详细 介绍 了 这 部 分 内 容 ， 包 括 复 
杂 数 据 的 操作 技巧 ， 比 如 排序 和 统计 等 。 


面 回 对 象 程 序 设 计 
没 错 ，Perl 也 有 对 象 ， 并 且 和 其 他 语言 是 术语 兼容 (buzzword-compatible) 的 。 面 向 
对 象 (object-oriented， 简 称 0O) 程序 设计 让 你 能 够 通过 继承 (inheritance) 、 加 盖 


注 3: 其 实 严 格 来 说 并 不 完全 这 样 ， 不 过 你 可 以 装 得 非常 像 ， 直 到 自己 都 不 太 记得 有 什么 差别 。 


注 4: 事实 上 ， 这 些 东西 Perl 都 做 不 到 ， 它 们 不 过 是 简称 而 已 ， 实 际 情 况 并 非 如 此 。 我 们 所 谓 
”的 “数组 的 数组 ”， 在 Perl 里 面 其 实 是 “存放 数组 引用 的 数组 ”。 
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(overriding) 岂 及 动态 方法 判定 《dynamic method lookup) 来 自行 定义 功能 相关 的 数据 
类 型 星 51 。 但 不 像 其 他 编程 语言 ，Perl 并 不 要 求 你 一 定 要 用 面向 对 象 的 方式 编写 程序 。 


不 过 ， 如 果 程 序 代码 长 度 大 于 N 行 ， 那 么 以 面向 对 象 的 方式 设计 对 程序 员 而 悍 可 能 比 
较 有 效率 《虽然 运行 时 可 能 会 慢 一 点 点 ) 。 没 有 人 知道 N 的 值 确切 是 多 少 ， 不 过 我 们 
估计 它 在 几 千 左右 。 请 阅读 文档 periobj 及 perlpoot 作 为 人 门 。 进 一 步 的 权威 信息 请 参考 
由 Damian Conway 编 写 的 《Object-Oriented Perl》 (Manning Press) 这 本 好 书 。“ 羊 驼 
书 ” 也 同样 详细 介绍 了 有 关 对 象 的 内 容 。 


在 我 们 更 新 本 书 的 时 候 ， 基 于 Moose 的 元 对 象 (meta-object) 系统 正在 变 得 非常 流行 。 它 
是 在 原始 粗放 式 Perl 对 象 实现 的 基础 上 ， 按 照 更 切合 面向 对 象 编程 理念 的 方式 构建 起 来 
的 ， 并 且 提供 了 更 富 语义 和 逻辑 的 使 用 界面 。 


匿名 子 程序 和 闭 包 

乍 听 之 下 也 许 很 奇怪 ， 不 过 没有 名 称 的 子 程序 也 是 很 有 用 处 的 。 这 种 子 程序 可 以 作为 
其 他 子 程序 的 参数 ， 也 可 以 放 进 数组 或 哈 希 里 作为 跳 转 表 (jump table) 来 使 用 。 闭 包 
(closure) 则 是 从 Lisp 世 界 引 入 的 概念 ， 它 的 意思 (差不多 ) 是 具有 私有 数据 的 匿名 子 
程序 。 照 例 ，“ 羊 驼 书 ” 和 《Mastering Perl》 里 也 谈 到 了 这 方面 的 内 容 。 


捆绑 变量 


捆绑 变量 (tied variable) 可 以 用 惯常 的 方式 来 访问 ， 但 每 种 访问 方式 的 背后 使 用 的 是 你 
自己 的 程序 代码 。 所 以 ， 你 可 以 建立 存储 在 远程 机 器 上 的 标量 或 某 个 总 能 保持 排序 的 数 
组 。 请 参阅 peritie 文 档 或 者 《Mastering Perl》。 


| 忆 

操作 符 的 重 载 

你 可 以 利用 over1oad 模 块 重新 定义 某 些 操作 符 ， 包 括 加 法 、 连 接 、 比 较 甚 至 是 从 字符 串 
到 数字 的 自动 转换 。 比 如 ， 实 现 复数 的 模块 就 可 以 用 这 种 方式 来 让 复数 乘 以 8 得 出 正确 
”的 复数 。 





注 5: 面向 对 象 有 专门 的 行 话 。 事 实 上 ， 任 何 两 种 面向 对 象 语言 中 的 同一 个 术语 也 常常 会 在 细 
节 上 有 所 不 同 。 
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动态 加 载 


动态 加 载 就 是 让 程序 在 运行 过 程 中 加 载 某 些 额外 模块 的 功能 ， 动 态 加 载 后 继续 运行 后 面 
的 程序 。 动 态 加 载 Perl 程 序 代码 从 来 不 是 问题 ， 不 过 有 意思 的 是 ，Penl 还 能 动态 加 载 二 进 
制 扩 展 模块 “6 。 用 非 Perl 语 言 写 出 来 的 Perl 模 块 就 是 这 样 做 出 来 的 。 


(从 某 种 角度 来 说 ) 与 动态 加 载 相 对 的 技术 就 是 虚 和 了。 


如 果 你 想 写 个 非常 酷 的 文字 处 理 器 ， (假设 ) 开始 时 是 用 C++ 语言 实现 的 注 7] 。 现 在 ， 
你 希望 用 户 能 够 使 用 Perl 的 正则 表达 式 来 执行 强大 的 “查找 并 替换 ”功能 ， 于 是 将 一 自 
Perl 程 序 区 入 你 的 程序 里 。 接 下 来 ， 你 也 可 以 将 Perl 的 某 些 功能 开放 给 用 户 。 高 级 用 户 可 
以 用 Perl 编 写 子 程序 ， 使 之 成 为 菜单 里 的 功能 。 他 们 也 可 以 写 一 小 段 Perl 程 序 来 自 定义 
文字 处 理 器 的 操作 。 之 后 ， 你 在 网 站 上 留 了 一 个 空间 ， 让 用 户 分 享 并 交流 这 些 Perl 程 序 
片段 。 这 样 一 来 ， 就 会 有 上 千 名 程序 员 在 扩展 此 程序 的 功能 ， 而 你 的 公司 不 必 为 此 有 上 额 
外 支出 。 为 了 这 些 好 处 ， 你 要 付 钱 给 Larry 吗 ? 完全 免费 ， 请 参考 Per 所 附 的 授权 条 款 。 
Larry 实 在 是 个 大 好 人 ， 你 至 少 该 寄 给 他 一 封 感谢 函 吧 。 


虽然 我 们 还 没 听 说 过 这 种 文字 处 理 器 ， 但 有 些 人 已 经 使 用 同样 的 技巧 做 出 功能 强大 的 
其 他 程序 了 。 其 中 一 个 例子 是 Apache 的 mod_per1， 它 将 Perl 戏 和 人 到 功能 已 经 十 分 强大 的 
Apache Web 服 务 器 里 面 。 如 果 你 也 想 要 嵌入 Per] 到 其 他 语言 编写 的 项 目 中 去 ， 不 妨 参考 
一 下 mod_per]l 的 做 法 ， 因 为 它 是 完全 开源 的 ， 所 以 可 以 研究 一 下 它 是 怎么 做 的 。 


把 其 他 语言 所 写 的 程序 转换 成 Perl 程 序 


如 果 你 有 以 sed 或 awk 语言 写成 的 程序 ， 却 希望 能 用 Perl 做 同样 的 事 ， 那 你 大 可 放心 。 
Perl 不 但 具备 这 两 个 语言 的 所 有 功能 ， 还 附带 转换 程序 ， 它 们 大 概 已 经 安装 到 你 的 系统 
上 了 。 请 参考 s2p (从 sed 转 换 到 Perl) 及 a2P (从 awk 转换 到 Perl) 的 说 明文 档 [8 。 因 





注 6;: 只 要 系统 支持 ， 通 常 部 能 以 动态 加 载 的 方式 进行 二 进 制 扩展 。 如 果 系 统 不 支持 ， 也 可 以 
对 扩展 模块 进行 静态 编译 ， 也 就 是 说 Perl 在 编译 时 即 包 含 了 该 扩展 模块 ， 可 以 直接 使 用 。 

注 7: 没准 用 这 个 语言 来 写 文 字 处 理 器 是 很 合适 的 。 没 错 ， 我 们 喜爱 Perl， 但 并 没有 发 毒 示 不 
再 用 别 的 语言 。 如 果 X 语 言 是 最 佳 选择 的 话 ， 就 该 使 用 它 。 只 不 过 X 常 常 是 Perl 女 了。 

注 8: 如 果 你 在 使 用 gaWwK、Pawk 或 其 他 衍生 版 本 ，a2p 也 许 就 无 法 进行 转换 了 。 这 里 所 提 到 的 
两 个 转换 程序 都 是 在 很 久之 前 写成 的 ， 除 了 让 它 在 新 版 的 Perl 中 继续 运行 之 外 ， 它 们 几乎 
没 被 更 新 过 。 
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为 机 器 写 的 程序 比 不 上 人 写 的 ， 所 以 用 这 种 方式 产生 的 代码 并 不 怎么 样 ， 但 它 至 少 是 个 
始 ,， 在 它 基 础 上 做 进一步 修改 也 很 容易 。 转 换 后 的 程序 的 运行 速度 可 能 有 所 不 同 。 不 
过 ， 在 修复 好 程序 代码 里 明显 的 瓶颈 之 后 ， 应 该 和 原来 的 程序 差不多 。 


希望 在 Perl 里 使 用 已 经 用 C 语 言 实 现 了 的 算法 吗 ? 也 请 放心 ， 将 C 程 序 代码 编译 成 Perl 模 
块 并 不 难 。 事 实 上， 任何 能 编译 成 目标 码 的 程序 语言 一 般 也 都 能 被 转换 成 Perl 模 块 。 请 
参考 perlxs 文 要 、Inline 模 块 以 及 SWIG 系 统 。 


想 将 现 有 的 shell 脚 本 转换 成 Perl 吗 ? 真 不 幸 ， 并 没有 从 shell 自 动 转换 到 Per 的 方法 。 这 
ii 它 大 部 分 的 时 间 都 在 运行 别 的 程序 。 当 然 ， 我 们 可 
以 写 个 程序 来 将 shell 里 的 每 一 行 都 转 成 system 调 用 ， 可 这 样 会 比 shell 直 接 调用 慢 得 多 。 
要 将 shell 里 所 用 到 的 cxwt、rm、sed、awk 和 8rep 转 换 成 有 效率 的 Perl 程 序 代 码 ， 实 在 需要 
人 类 程度 的 智力 才 办 得 到 。 将 shell 脚 本 从 头 改写 是 比较 好 的 做 法 。 


把 find 命 令 行 转换 成 Perl 程 序 


系统 管理 员 的 常见 任务 之 一 就 是 递归 搜索 目录 树 来 寻找 某 些 特定 文件 或 目录 。 在 Unix 
上 ， 这 通常 要 靠 jird 命 令 来 完成 。 这 件 事 ， 我 们 也 可 以 直接 用 Perl 来 达成 。 


Perl 自 带 的 Pind2per! 命 令 所 接受 的 参数 和 jind 命 令 的 相同 。 不 过 ，jJind2perl 并 不 会 执行 搜 
索 操 作 ， 而 是 输出 用 于 进行 搜索 的 Per]l 程 序 源 代码 。 既 然 是 程序 代码 ， 你 就 可 以 根据 需 
要 自行 修改 〈 虽 然 程序 的 风格 会 有 点 奇怪 ) 。 


Jind2perL 有 个 很 好 用 的 参数 是 六 ad 没有 的 ， 那 就 是 -eval 选 项 。 它 后 面 的 参数 是 实际 的 
Per] 程 序 代 码 ， 这 段 代 码 会 在 每 次 文件 被 找到 时 运行 。 当 它 运 行 时 ， 当 前 工作 目录 将 会 
是 该 文件 所 在 的 目录 ，$ _ 的 值 则 是 找到 的 条 目 名 。 


下 面 是 azd2per; 的 一 种 用 法 。 假 设 你 是 Unix 系 统 上 的 管理 员 ， 想 要 将 /tmzzp 目 录 下 陈旧 的 
文件 全 部 删除 寺 ?1 。 下 面 就 是 生成 该 程序 的 命令 : 


$ find2per]1 /tmp -atime +14 -eval unlink >Per1-pTogIag 


该 命令 会 在 /tap 〈 及 其 所 有 子 目录 ) 里 寻找 atime (最 后 访问 时 间 ) 离 现在 至 少 14 天 的 所 
有 条 目 。 它 会 对 每 个 条 上 且 运 行 Perl 的 unlink 人 代码， 而 且 会 将 默认 变量 $ 的 值 当成 要 删除 
的 文件 名 。 和 输出 结果 〈 重 定向 到 Per!-programm 这 个 文件 里 ) 将 会 是 执行 上 述 任务 的 程序 
代码 。 接 下 来 ， 只 要 安排 它 在 适当 时 间 运 行 就 行 了 。 





注 9: 这 通常 是 在 每 天 清晨 由 cron 定 时 完成 的 任务 。 
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人 7 1 人 Z 一 先 

让 你 的 程序 支持 命令 行 选项 

如 果 想 让 你 的 程序 支持 命令 行 选 项 〈 就 像 Perl 自 己 的 -w 警 告 选项 之 类 的 ) ， 可 以 选用 现成 
的 模块 并 按照 标准 惯用 方式 实现 。 请 参考 Getopt : :Long 及 Getopt: :Std 模 块 的 说 明文 档 。 


骨 入 式 文 档 


Perl 自 己 的 说 明文 档 是 以 pod (plain-old documentation) 方式 写成 的 。 你 可 以 将 这 种 文档 
直接 嵌 到 程序 代码 内 ， 随 后 在 需要 时 可 以 把 它 转换 成 纯 文 本 、HTMEL 或 许多 其 他 格式 。 
请 参考 peripod 文 档 。“ 羊 驼 书 ”也 介绍 了 这 部 分 内 容 。 


打开 文件 句柄 的 其 他 方式 


打开 文件 句柄 时 还 有 许多 别 的 模式 可 供 使 用 。 请 参阅 periopentut 文 档 。Perl 内 置 的 open 的 
功能 十 分 完备 ， 所 以 它 有 一 份 专门 的 说 明文 档 。 


线程 与 派生 进程 
Perl 现 在 已 经 支持 线程 了 。 虽 然 〈 在 本 书 编写 时 ) 线程 功能 还 是 实验 性 的 ， 但 在 某 些 应 


用 中 已 经 非常 好 用 了 。Perl 对 fork 的 支持 (当然 是 在 支持 该 功能 的 操作 系统 上 ) 比较 完 
闭 。 请 参阅 文档 perj 如 上 和 Perltprtut。 


图 形 用 户 界 面 (GUI) 


Perl 支 持 许多 GUI 工具 包 。 请 到 CPAN 查 阅 Tk、Wx 等 模块 的 文档 。 


更 锡 … oo 


只 要 看 看 CPAN 上 的 模块 列表 ， 你 就 可 以 找到 各 种 不 同 用 途 的 模块 : 从 产生 图 表 及 图 
像 ， 到 下 载 电子 邮件 ， 从 计算 贷款 分 期 付款 ， 到 预测 日 藩 时 间 。 新 的 模块 不 断 涌 现 ， 所 
以 你 现在 看 到 的 Perl 又 比 我 们 写本 书 时 强大 多 了 。 我 们 不 可 能 一 直 跟 上 新 的 模块 ， 所 以 
就 到 此 为 止 。 


由 于 Perl 的 世界 不 断 扩 张 ， 所 以 连 Larry 也 自 认 无 法 跟 上 Perl 的 所 有 进展 。 他 并 不 会 对 Perl 
感到 无 聊 ， 他 总 是 能 够 在 这 个 不 断 扩 张 中 的 世界 里 找到 新 的 角落 。 本 书 的 作者 大 概 也 有 
同感 。Larry， 谢 谢 你 ! 
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附录 人 


Unicode 入 门 





本 附录 并 非 关 于 Unicode 的 完整 介绍 ， 我 们 只 是 为 了 帮助 你 在 学 习 本 书 时 能 理解 Unicode 
相关 部 分 的 内 容 。 之 所 以 说 Unicode 有 点 难 ， 不 光 是 因为 它 对 于 字符 串 有 了 全 新 的 理 
解 ， 有 大 量 调 整 的 词汇 表 ， 也 因为 历史 原因 ， 很 多 计算 机 语言 对 它 的 支持 一 直 不 够 完 
善 。Perl 5.14 在 Unicode 方 面 已 经 有 了 非常 大 的 改善 ， 虽 然 还 不 是 十 分 完美 ， 不 过 也 算 
是 你 能 找 得 到 的 最 好 的 对 Unicode 的 支持 了 。. 


Unicode 


Unicode 字 符 集 (Unicode Character Set， 简 称 UCS) 是 字符 《cpnaracter) 到 代码 点 
(code point) 的 抽象 关系 映射 。 它 和 字符 在 内 存 中 的 特定 表示 方法 没有 关系 ， 也 就 是 
说 ， 我 们 在 谈论 字符 时 可 以 不 用 考虑 操作 系统 的 区 别 ， 它 们 在 任何 一 个 平台 上 都 总 是 
同一 个 实体 。 而 我 们 讲 的 编码 《encode) ， 是 指 将 字符 的 代码 点 按照 特定 形式 存储 到 内 
存 中 的 方式 ， 由 它 建 立 起 抽象 字符 映射 和 计算 机 物理 实现 之 间 的 桥梁 。 你 可 能 认为 谈 到 
存储 时 应 该 使 用 “ 字 节 (byte) ”这 个 术语 ， 不 过 在 我 们 谈论 Unicode 时 应 该 用 术语 位 
组 〈octef) (参见 图 C-1) 。 不 同 的 编码 方式 存储 位 组 的 方式 不 同 ， 从 另 一 个 意义 上 来 
说 ， 反 过 来 把 特定 位 组 按照 既定 的 编码 方式 转换 成 字符 的 过 程 就 称 为 解码 (decode) 。 

其 实 你 不 用 担心 这 些 底层 细节 ，Perl 已 经 帮 你 处 理 好 所 有 这 些 内 部 事务 了 。 
当 我 们 谈 到 代码 点 的 时 候 ， 我 们 会 用 十 六 进 制 数字 表示 ， 如 : (U+0158)， 这 个 代码 点 
表示 字符 页。 代码 点 还 有 名 称 ， 像 这 个 字符 的 名 称 就 是 “LATIN CAPITAL LETTER R 


WITH CARON”。 不 止 如 此 ， 代 码 点 还 能 判断 知晓 有 关 它 本 身 的 一 些 信息 。 它 知道 自己 
是 否 为 大 写字 符 还 是 小 写字 符 ， 是 字母 还 是 数字 ， 或 者 属于 空格 一 类 的 空白 符 等 等 。 并 
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且 如 果 存 在 的 话 ， 它 还 知道 对 应 于 自己 的 大 写 版 本 、 标 题 版 本 (title case) 、 小 写 版 本 
是 什么 字符 。 所 以 在 Unicode 里 面 ， 我 们 不 光 能 处 理 单 个 字符 ， 还 能 同时 处 理 一 组 特定 
类 型 的 字符 。 所 有 这 些 都 定义 在 per! 自 带 的 Unicode 数 据 文件 中 。 到 Perl 的 库 目 录 中 找 找 
看 名 为 wmaicore 的 目录 ，Perl 就 是 依赖 它 完成 各 种 Unicode 字 符 操作 的 。 


Characters 


a Ecode 


LATN SMALLLETRRRA W JIHD 了 及 ERESR 
Decode 
U+00E4 





图 C-1; 代码 点 只 是 字符 代号 ， 并 非 存储 内 容 。 编 码 就 是 把 字符 转换 为 存储 位 组 的 过 程 。 


UTF-8 和 它 的 朋友 们 


Perl 里 面 推 荐 使 用 的 是 UTF-8 编 码 ， 它 是 “UCS Transformation Format 8-bit” 的 简短 说 
法 。 这 个 编码 的 定义 ， 是 某 天 晚上 Rob Pike 和 Ken Thompson 在 新 泽 西 州 共 进 晚 餐 时 写 在 
餐 垫 背 面 的 性 1 。 这 只 是 Unicode 编 码 的 一 种 实现 方式 ， 但 由 于 它 没有 其 他 编码 方式 的 
种 种 缺陷 ， 所 以 变 得 极为 流行 。 不 过 要 是 你 用 Windows 的 话 ， 最 好 选用 UTF-16 编 码 。 对 
于 这 种 编码 ， 我 们 设 什么 特别 想 说 的 ， 那 就 遵从 妈妈 的 “沉默 是 金 ” 的 教导 好 了 。 


让 所 有 参与 者 达成 共识 

要 让 所 有 工具 和 系统 都 设置 成 使 用 Unicode 往 往 并 不 那么 简单 ， 因 为 每 一 个 使 用 到 
Unicode 字 符 的 系统 都 需要 知道 原来 用 的 是 什么 编码 方式 ， 才 能 按照 这 种 方式 正确 显示 
或 者 处 理 。 任 何 一 个 环节 的 步调 不 一 致 ， 都 会 产生 类 似 乱 码 那样 的 效果 ， 同 时 又 很 难 推 
断 具 体 问题 出 在 哪个 环节 。 如 果 程 序 输出 的 是 UTF-8 编 码 的 字符 ， 那 么 显示 这 个 结果 的 
终端 程序 必须 知道 这 一 点 才能 正确 显示 。 如 果 给 Perl 程 序 的 输入 数据 是 UTF-8 编 码 的 字 
符 ， 那 么 Perl 程 序 也 必须 知道 这 一 点 ， 才 能 对 输入 的 字符 串 作 出 正确 的 解析 和 处 理 。 如 
果 存 放 UTF-8 数 据 到 数据 库 ， 那 么 数据 库 也 必须 知道 这 一 点 ， 在 保存 和 提取 数据 时 都 按 
照 这 个 编码 方式 进行 操作 。 在 编写 Perl 程 序 时 ， 如 果 希 望 per! 解 释 器 把 源 代 码 中 的 字符 当 


注 1: 不 妨 读 一 读 Rob Pike 自 己 在 jztp:/wrww.clcama.ac:.UK/~1i8gK25/UcSHUI 扩 8S-PistoryIxt 上 讲 的 关于 
发 明 UTF-8 编 码 的 故事 。 
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作 UTF-8 编 码 的 字符 来 解析 的 话 ， 也 同样 需要 设 定编 辑 软件 ， 让 其 校 照 UTF-8 编 码 的 方 
式 保 存 程序 文件 。 


我 们 不 知道 你 正在 用 的 是 哪 一 款 终 端 程序 ， 我 们 也 不 打算 把 所 有 终 端 软件 的 配置 方法 全 
都 列 在 这 里 。 不 过 对 大 多 数 终端 程序 来 说 ， 试 试看 到 偏好 设置 里 找 一 下 有 关 编 码 方面 的 
设 定 ， 多 半 都 很 简单 。 


除了 对 终端 的 编码 设置 ， 各 种 程序 也 需要 知道 最 终 放 在 终端 里 显示 的 输出 该 用 什么 编 
码 。 大 多 数 程序 会 参考 名 称 以 LC_* 开 头 的 环境 变量 ， 也 有 一 些 会 参考 自己 事先 约定 名 称 
的 环境 变量 ， 
LESSCHARSET=utf-8 
LC_ALL=en_US.UTF-8 
如 果 输 出 内 容 过 长 ， 使 用 分 页 程序 (比如 less、more、type 等 ) 显示 却 发 现 字符 显示 
不 正常 的 话 ， 请 阅读 它们 各 自 的 文 要 ， 看 看 应 该 如 何 设 定 才能 让 它们 知道 正确 的 字符 编 
码 。 


如 果 长 久 以 来 你 都 习惯 用 ASCII 编 码 看 待 字符 的 话 ， 那 么 现在 改 用 Unicode 就 要 换 换 脑 
筋 了 。 举 个 例子 ， 请 问 E 和 e 有 什么 差别 ? 光 是 看 恐怕 很 难说 出 不 同 来 ， 就 算 你 读 的 是 本 
书 电子 版 也 很 难 判断 究竟 有 何不 同 ， 说 不 定 在 本 书 出 版 过 程 中 不 小 心 “ 修 掉 了 ”它们 之 
间 的 差别 。 你 甚至 可 能 不 相信 这 里 有 所 不 同 ， 不 过 事实 确实 如 此 。 前 者 是 单个 字符 ， 
而 后 者 却 是 两 个 字符 。 对 人 来 说 ， 它 们 都 表示 相同 的 字 素 (grapheme) ， 或 者 说 字形 
(8Dph) ， 不 管 计算 机 是 用 什么 方式 表示 这 个 字 素 的 ， 但 最 终 指 代 的 都 是 同一 个 东西 。 
我 们 通常 只 关心 最 终 这 个 显示 出 来 的 字 素 ， 它 才 是 最 终 影响 读者 并 对 读者 产生 意义 的 东 
西 。 


在 Unicode 出 现 以 前 ， 常 见 见 的 宇 符 集会 把 这样 的 宇 素 定 义 为 原子 (atom) ， 或 者 说 单 
个 实体 (single entity) ， 就 比如 前 面 这 段 文字 中 的 第 一 个 字符 示例 《相信 我 们 ) 。 
过 ，Unicode 还 有 一 个 表示 字 素 的 方式 ， 就 是 使 用 表示 读音 或 其 他 衍生 注解 意义 的 记号 
(mark) 字符 和 一 个 普通 的 非 记号 (normark) 字符 组 合 而 成 。 第 二 个 字符 示例 E 就 是 由 
非 记 号 字符 e (U+0065，LATIN SMALL LETTERE) 和 一 个 表示 字母 上 方 的 小 扩 的 记号 
字符 ′ (〈U+0301，COMBINING ACUTE ACCENT) 组 成 。 这 两 个 字符 共同 构成 了 最 终 
我 们 看 到 的 字 素 。 事 实 上 ， 这 也 正 是 我 们 不 能 一 概 称 之 为 字符 而 要 改称 为 字 素 的 原因 。 
同一 个 字 素 的 构成 方式 可 能 不 止 一 种 ， 也 许 只 用 了 一 个 字符 ， 也 许 组 合 了 多 个 字符 。 可 
能 有 点 过 于 学 究 气 了 ， 不 过 这 里 讲 的 都 是 基础 ， 理 解 了 这 些 才 能 更 好 地 理解 接 下 来 对 
Unicode 的 处 理 ， 知 其 所 以 然 。 
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如 果 世 界 可 以 从 头 来 过 ，Unicode 也 许 不 必 同 时 维护 单个 字符 版 本 的 人 字符 ， 毕 竟 组 合 的 
方式 更 加 灵活 。 但 出 于 历史 原因 ， 单 个 字符 的 版 本 早已 存在 ，Unicode 不 得 不 考虑 向 后 
兼容 ， 并 采取 一 切 努 力 善待 这 类 字符 。 对 ASCII 编 码 来 讲 ， 它 的 字符 序号 和 Unicode 的 字 
符 代 码 点 完全 一 致 ， 都 是 从 0 到 255 的 那 一 段 。 所 以 ， 把 ASCII 字 符 串 当 作 UTF-8 编 码 来 
处 理 完全 没事 ， 不 过 在 UTF-16 里 就 不 是 这 样 了 ， 这 种 编码 对 所 有 字符 都 采取 两 个 字 节 的 
形式 定义 。 


单个 字符 版 本 的 E 可 以 称 作 为 组 合 (composed) 字符 ， 因 为 它 是 用 一 个 代码 点 表示 两 个 
或 多 个 字符 。 它 把 非 记号 字符 和 记号 字符 合并 成 单个 字符 (U+00E9，LATIN SMALL 
LETTER BE WITH ACUTE) ， 最 终 只 用 一 个 代码 点 来 表示 。 而 表示 同一 个 字 素 的 两 个 字 
符 则 构成 了 相应 的 分 解 (decomaposed) 版 本 。 


那么 ， 为 何 我 们 在 意 这 两 种 不 同 的 表示 方法 呢 ? 要 是 用 不 同 的 字符 表示 同一 个 字 素 ， 我 
们 该 怎么 正确 按照 实际 的 字 素 意 义 来 排序 呢 ? Perl 的 sort 函 数 关心 的 仅仅 是 字符 层面 上 
的 事 ， 而 不 会 过 问 字 素 ， 所 以 "\x{fE9}" 和 "\x{65}\x{301} "这 两 个 逻辑 上 都 表示 6 的 字符 
串 ， 是 不 会 在 排序 结果 中 排 在 相 邻 位 置 上 的 。 而 我 们 总 是 期 望 按 E 字 素 的 意义 排序 ， 不 
管 它 到 底 是 用 哪 种 方式 表示 的 ， 组 合 字符 也 好 ， 分 解 字符 也 好 ， 都 一 样 。 但 计算 机 看 到 
的 只 是 字符 ， 它 并 不 知道 其 中 的 意义 ， 所 以 不 会 按照 人 们 需要 的 方式 进行 排序 。 我 们 马 
上 向 你 展示 解决 方案 ， 另 外 不 妨 请 你 一 并 读 下 第 十 四 章 。 


更 加 谜 样 的 字符 
事情 还 可 以 变 得 更 为 离奇 ， 虽 然 大 多 数 人 不 会 特别 在 意 。 请 问 ， 卢 和 矿 之 间 又 有 什么 差 
别 呢 ? 只 要 排 字 员 没有 对 此 进行 “优化 ”， 第 一 个 其 实 是 由 分 开 的 /和 ;组 成 的 ， 第 二 个 
是 两 者 合 在 一 起 构成 的 连 字 (1igature) ， 一 般 定义 为 字 素 ， 方 便 读者 辨识 ?2 。 字 符 / 
上 面 的 部 分 看 起 来 好 像 要 强加 在 字符 ;上 面 的 点 所 在 的 私人 空间 里 一 样 ， 看 起 来 有 点 丑 
陋 [ 莽 3] 。 你 可 能 从 未 注意 到 这 些 细节 ， 不 过 你 可 以 在 本 段 找到 几 个 例子 ， 如 果 你 读 的 
是 关于 字体 编排 的 书籍 ， 这 种 情况 应 该 会 更 多 一 些 [E4] 。 


注 2: OO'Reilly 的 自动 排版 系统 不 会 把 我 们 的 广 转换 为 对 应 的 连 字 ， 我 们 只 能 自己 手工 键入 。 
”不 加 转换 的 文档 流转 工作 可 能 处 理 起 来 要 快 些 (faster) ， 而 与 此 同时 ， 我 们 在 普通 正文 
中 混杂 (shufle) 一 些 连 字 也 不 会 有 什么 问题 。 (译注 : 为 了 印证 作者 所 言 非 度 ， 原 文 
fagter 和 shufle 这 两 个 词 ， 瞳 瞳 使 用 了 形式 相近 的 连 字 和 和 田代 替 中 间 的 部 分 。) 
注 3: 我 们 识别 文字 的 时 候 并 不 是 按照 每 一 个 字母 来 看 的 ， 而 是 把 它们 作为 一 个 整体 ， 所 以 合 
并 后 的 连 字 能 稍稍 方便 我 们 的 模式 识别 。 基 于 这 样 的 原因 ， 字 体 设计 师 把 这 样 的 两 个 字 
率 合 并 为 一 个 连 字 字 素 。 
注 4: 但 不 是 电子 书 。 好 像 电 子 书 一 般 部 不 太 在 意 字体 是 否 漂亮 。 
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这 和 e 的 组 合 形式 、 分 解 形式 相 类 似 。e 的 两 种 表示 方法 实际 上 可 说 是 完全 等 价 
(canonically eqguivalent) 的 ， 因 为 不 管 如 何 构造 这 个 字 素 ， 最 终 的 视觉 呈现 和 字 素 意 
义 都 是 相同 的 。 但 太 和 上 搬 的 视觉 呈现 并 不 相同 ， 所 以 它们 只 是 不 完全 等 价 (comparibpility 
equivaieni) 的 [ 竹 51 。 不 管 是 完全 等 价 还 是 不 完全 等 价 ， 我 们 都 不 需要 关心 如 何 分 解 为 


方便 排序 的 普通 形式 〈 见 图 C-2) 。 









Composed 





Decomposed 
@@ @9@ 


NpFDd da 
Q MDd4 econpoie 


IATN SMALLETIER AW IIHD 及 ERESGS TN SMALLDILETTIER AU+00E4 





U+00E4 0 了 及 ERES 卫 ，U+00RA8 


{ 俐 NEDdecompose 伯 


IRTN SMALDLH ATUJRE FF 2XIATN SMALLDLETTIER BR 
U+EFB00 U+0066 








图 C-2: 我 们 可 以 分 解 并 重新 组 合 完全 等 价 的 字 素 表示 形式 ， 但 只 能 分 解 不 完全 等 价 的 字 素 表 
示 形 式 。 


比如 你 想 要 检查 字符 串 中 是 否 包含 或 者 户 ， 但 并 不 关心 原始 用 的 是 哪 种 字符 表示 形式 。 
首先 ， 需 要 将 字符 串 分 解 为 普通 形式 ， 这 好 比 是 在 做 归 一 化 。 要 分 解 Unicode 字 符 串 ， 
得 用 Perl 自 带 的 Unicode: :Nozrmalize 模 块 ， 它 提供 了 两 个 分 解 字符 串 的 函数 。 你 可 以 用 
NFD (Normzalization Form Decompositionr) 子 例 程 把 完全 等 价 形式 的 字 素 转换 为 对 应 的 分 
解 形 式 。 另 外 ， 也 可 以 用 NFKD (Normalizatiom Form Kompatipility Decomposifion) 子 例 
程 分 解 为 不 完全 等 价 的 字 素 。 下 面 例子 中 的 字符 串 包 含 了 组 合 字符 ， 之 后 再 以 不 同方 式 
分 解 后 匹配 。 包 含 “oops” 字 有 眼 的 消息 应 该 不 会 输出 ， 而 包含 “yay” 字 眼 的 会 在 匹配 后 
打印 输出 ， 


use utf8; 
Use Unicode: :Normalizey， 


## U+FBO1 - 乒 连 字 
# U+0065 U+0301 - 分 解 形 式 的 上 





注 5: 参考 《Unicode Standard Annex #15》 里 面 关 于 “Unicode Normalization Forms” 的 细节 阅 
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# U+00E9 - 组 合 形式 的 
binmode STDOUT，“' :utf8 ' ; 


my $string = 
"Can you xfFBO1jnd my TANX{E9}jsumNx{fE9}?"; 


计 ( $string = /Ax{65}\x{f301}/ ) 区 
print“0ops1 Matched 3a decomposed En "; 


】} 
if( $string =~ /\x{fE9}/ ) { 

print "Yayl Matched 3a composed ENn”; 
】 


my $nfd = NFD( $string ); 
if( $nfd = /xf{E9}/ ) { 
Print "0ops! Matched a composed En"; 


if( $nfd =~ /fi ) 二 
print “0ops!1 Matched a decomposed fi\n"; 
】 


my $nfkd = NFKD( $string ); 
if( $string = /fi ) 
pzint "0ops! Matched a decomposed fiNn"; 


】} 
计 ( $nfkd = /fi ) 
pzint "Yayl NMatched a decomposed fivn ; 


if( $nfkd =~ /\x{f65}\x{f301}/ ) 【 
pTrint “Yayl Matched a decomposed EN\n”; 


你 应 该 看 到 了 ，NEKD 方 式 总 是 能 匹配 分 解 形式 的 字符 ， 因 为 NFKD() 既 能 分 解 完 全 等 价 
形式 ， 也 能 分 解 不 完全 等 价 形式 。 而 NFD 方 式 则 无 法 处 理 不 完全 等 价 形式 ， 

Yay!l Matched acomposed E 

Yayl Matched a decomposed fi 

Yayl Matched 3a decomposed 
所 以 这 里 提示 我 们 需要 注意 的 是 : 你 可 以 对 完全 等 价 形式 分 解 或 重新 组 合 ， 但 却 不 能 对 
不 完全 等 价 形式 重新 组 合 。 如 果 把 连 字 六 分 解 开 来 ， 会 得 到 两 个 独立 的 字 素 f 和 1i， 但 反 
过 来 ， 重 新 组 合 时 谁 也 不 能 断定 这 两 个 连 在 一 起 的 字符 的 本 意 是 某 个 字 素 ， 还 是 原本 就 ， 
是 分 开 独 立 的 两 个 字符 入 5 。 这 也 就 是 说 ， 完 全 等 价 和 不 完全 等 价 的 不 同 之 处 在 于 : 
完全 等 价 的 分 解 和 组 合 形式 看 起 来 总 是 相同 的 。 


注 6: 这 吉 是 为 什么 我 们 不 谈 NFC 和 NEFKC 的 原因 。 这 两 种 方式 会 光 做 分 解 ， 再 做 重新 组 含 的 操 . 
作 ， 但 NFKC 未 必 总 能 回 到 分 解 前 原来 的 形式 。 





国 
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在 Per 中 处 理 Unicode 


本 节 是 关于 Perl 程 序 中 Unicode 常 见 用 法 的 快速 小 结 。 这 并 不 是 完整 指南 ， 甚 至 有 些 细节 
是 我 们 故意 略 去 不 讲 的 。 关 于 Unicode 的 处 理 实际 上 是 一 个 很 大 的 主题 ， 我 们 并 不 想 在 
一 开始 就 吓 到 你 。 请 先 从 本 附录 开始 ， 学 一 点 基本 的 东西 ， 到 磁 到 实际 问题 时 ， 再 求助 
于 本 附录 末尾 列 出 的 文档 。 


在 源 代 码 中 使 用 Unicode 


如 果 你 想 要 在 编写 源 代码 时 使 用 JUTF-8 字 符 ， 需 要 告诉 per! 解 释 器 你 的 程序 文件 是 以 
UTF-8 编 码 的 。 只 要 打开 utf8 编 译 指令 就 可 以 了 ， 它 的 唯一 任务 就 是 告诉 perj 按 照 正 确 方 
式 解析 源 文件 。 比 如 下 面 代 码 中 的 字符 串 就 用 到 了 若干 Unicode 字 符 ， 


use Utf8; 
my $string = “Here is my ? IT6&sume"; 

甚至 还 可 以 在 变量 名 或 者 子 程序 名 中 使 用 Unicode 字 符 : 
use utf8; 


my %resumes = qA 人 
”Fred =>“fred.doc'， 


) 
sub mr () { 3.14159 } 
utf8 编 译 指令 的 唯一 任务 就 是 告诉 perl 解 释 器 按照 UTF-8 编 码 ， 方 式 解析 源 代 码 。 它 不 会 


帮 有 你 做 其 他 任何 辅助 性 的 工作 。 只 要 你 决定 开始 用 Unicode 工 作 ， 那 就 最 好 一 直 留 着 这 
个 编译 指令 ， 除 非 有 很 好 的 理由 不 这 么 做 。 


谜 样 字符 也 有 名 字 
除了 代码 点 外 ，Unicode 字 符 还 有 属于 自己 的 名 字 。 如 果 要 输入 的 字符 很 难 通 过 键盘 键 
入 ， 又 不 记得 对 应 的 代码 点 ， 那 就 用 它 的 名 字 好 了 (虽然 要 输入 的 内 容 也 不 少 ) 。Perl 
人 
中 把 名 字 放 在 \N{ . ..} 里 面 


my $string = “NAN{THAI CHARACTER KHOMUT}"; # 代码 点 为 U4+OE5B 


可 能 你 注意 到 了 ， 在 匹配 和 替换 操作 的 模式 部 分 ， 也 是 使 用 类 似 的 双 引号 上 下 文 ， 但 我 
们 还 有 一 个 名 为 \N 的 字符 集合 简写 ， 表 示 除 换行 符 以 外 的 所 有 字符 (参见 第 八 章 ) 。 虽 
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然 这 里 的 形式 相近 ， 但 一 般 不 会 出 现 餐 义 ， 所 以 就 算 名 字 相 同 也 没关系 ，Per] 能 够 分 清 
楚 .[ 往 7] 


从 STDIN 读 并 写 到 STDOUT 或 STDERR 


在 计算 机 的 底层 ， 输 入 和 输出 的 都 只 是 位 组 。 你 的 程序 需要 知道 用 什么 编码 方式 对 这 些 
位 组 进行 编码 或 解码 。 我 们 之 前 在 第 五 章 中 已 经 谈 了 很 多 ， 这 里 做 一 下 小 结 。 


对 文件 句柄 来 说 ， 有 两 种 指定 编码 方式 的 办 法 。 第 一 个 是 使 用 binmode 操 作 符 : 


binmode STDOUT，“"' :encoding(UTF-8) ; 
binmode $fh，" :encoding(UTF-16LE) ; 


也 可 以 在 打开 文件 句柄 时 在 模式 部 分 指定 ， 
open my $fh， ">:encoding(UTF-8)" ，$filename; 


如 果 要 对 所 有 将 要 打开 的 文件 句柄 设 定 默 认 编码 方式 ， 可 以 用 open 编 译 指令 指定 。 我 们 
可 以 把 所 有 输入 和 输出 的 句柄 都 设 为 UTF-8 编 码 的 


Use open IN =>“'“:encoding(UTF-8) ; 
use open 0UT =>“':encoding(UTF-8) ; 


也 可 以 用 一 条 语句 分 别 设 定 ， 
Use open IN =>":crLIf"，0UT =>“:bytes"; 


如 果 希 望 输入 和 输出 使 用 同样 的 编码 方式 ， 可 以 像 下 面 这 样 同时 指定 ， 这 里 的 TI0 写 上 或 
省 略 都 可 以 ; 


use open IO =>":encoding(iso?8859?1)"; 
Use open :encoding(UTF-8) ; 


因为 默认 文件 句柄 已 经 处 于 打开 状态 ， 所 以 需要 使 用 :std 子 编译 指令 来 让 它们 改 用 之 前 
设 定 的 编码 方式 : 


Use Open :std ; 
如 果 之 前 没有 显 式 定义 过 使 用 何 种 编码 方式 ， 上 面 这 条 语句 是 不 会 起 任何 作用 的 。 


你 也 可 以 在 命令 行使 用 -5 开关， 通过 后 面相 应 的 参数 指定 应 用 到 标准 文件 句柄 上 的 编码 
方式 : 


注 7: 有 关于 NAN 的 进一步 详细 讨论 ， 请 参阅 jxtp:W/mwrwrw.efjfeciiveperiprogramazing.co1UBio8g/1972。 
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STDIN 假定 为 用 UTF-8 

STD0UT 将 会 用 UTF-8 

STDERR 将 会 用 UTF-8 

TI+0+E 

输入 数据 流 的 默认 _ perlI0 层 会 使 用 UTF-8 
输出 数据 流 的 默认 _ PerlI0 层 会 使 用 UTF-8 


研 + 0 
参阅 perirun 文 档 以 获取 有 关 命 令 行 开 关 的 详细 信息 ， 包 括 这 里 的 -5 的 用 法 。 
读 写 文件 


我 们 之 前 在 第 五 章 讨论 过 文件 读 写 方面 的 内 容 ， 这 里 略 做 小 结 。 在 打开 文件 时 ， 使 用 三 
项 参数 形式 的 写法 ， 就 能 明确 指定 按照 哪 种 编码 方式 读 写 文件 : 


己 口 hm 已 疾 
局 上 人 


JJ 


open my( $read_fh )， :encoding(UTF-8) ， $filename; 

open my( $wrTite_fh )，“>:encoding(UTF-8) " ， 4$file_name; 

open my( $append_fh )， ">>:encoding(UTF-8) ，$fjile_name; 
不 过 要 记 住 ， 输 入 数据 的 编码 方式 并 不 是 你 决定 的 《至 少 不 是 在 你 的 程序 内 部 指定 
的 ) 。 除 非 你 明确 知道 来 源 数据 所 使 用 的 编码 方式 ， 否 则 不 要 指定 输入 句柄 的 编码 设 
定 。 要 知道 ， 就 算 不 作 声明 ， 实 际 上 还 是 会 用 :encoding 做 解码 工作 的 。 


如 果 不 知道 输 入 数据 采用 何 种 编码 方式 ， 或 者 根本 就 无 法 预测 的 话 〈 按 编程 法 则 的 说 法 
来 看 ， 只 要 运行 足够 多 次 ， 就 能 得 到 所 有 可 能 正确 的 编码 ) ， 不 妨 观 察 一 下 原始 数据 瀛 
中 的 数据 ， 猜 一 个 合乎 情理 的 编码 试 试看 ， 或 者 交 给 Encode: :Guess 模 块 来 猜 。 此 外 还 
有 一 些 取 巧 的 办 法 ， 不 过 这 里 我 们 不 再 更 言 。 


在 数据 进入 程序 你 就 不 必 担心 编码 之 类 的 事情 了 。Perl 会 聪明 地 处 理 有 关内 存 存 
0 
出 句柄 ) ， 才 需要 再 次 指定 编码 方式 对 数据 进行 编码 。 


处 理 命 令 行 参数 

正如 我 们 之 前 所 说 的 ， 如 果 要 把 手 上 的 数据 当 作 Unicode 来 处 理 的 话 ， 需 要 留心 数据 来 
源 。 特 殊 变 量 6ARGV 就 是 一 个 特例 ， 它 的 值 取 自命 令 行 参 数 ， 而 命令 行 参 数 在 输入 时 参 
考 的 是 本 地 环境 设置 ， 所 以 需要 取得 该 设置 并 按 其 编码 方式 解码 


use I18N::Langinfo 二 和 CODESET); 
use Encode qw(decode); 


my $codeset = langinfo(CODESET); 


foreach my $arg (〈( 6@ARGV ) { 
push @new_ARGV，decode $codeset，$_; 
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】 


处 理 数据 库 

编辑 跟 我 们 说 ， 都 到 本 书 结尾 了 ， 要 是 连 这 个 话题 都 要 谈 ， 一 定 会 超出 篇 幅 预算 的 ! 我 
们 也 知道 ， 这 么 有 限 的 篇 幅 很 难 面面俱到 ， 不 过 没关系 ， 这 里 要 说 的 其 实 不 光 和 Perl 有 
关 。 于 是 他 说 那 就 稍微 讲 几 名 吧 。 说 真 的 ， 有 那么 多 的 数据 库 服 务 器 ， 对 数据 的 处 理 方 
式 又 各 不 相同 ， 我 们 无 法 一 一 道 来 ， 实 在 遗憾 。 


不 管 怎么 说 ， 有 些 数据 最 终 还 是 要 存 到 某 个 数据 库 的 。Perl 里 面 最 流行 的 访问 数据 库 的 
模块 是 DBI， 它 可 以 透明 处 理 Unicode 字 符 ， 也 就 是 说 ， 它 不 加 干涉 地 直接 把 原始 数据 递 
交 给 数据 库 服务 器 存储 。 每 种 数据 库 都 需要 一 个 对 应 的 驱动 器 模块 〈 比 如 DBD::mysq1l 模 
块 ) ， 请 查阅 这 类 模块 的 文档 看 看 需要 做 哪些 编码 方面 的 设 定 。 另 外 ， 你 还 要 对 数据 库 
的 工作 方式 、 表 结构 以 及 特定 字段 等 分 别 做 出 正确 的 编码 设 定 。 现 在 你 明白 为 什么 这 个 
话题 会 超出 篇 幅 预 算 了 吧 ! 


进 阶 阅读 
Perl 文 档 中 有 许多 谈论 Unicode 的 部 分 ， 包 括 periunicode、Perlunaiag、perIuiintro、 
Periaupiprops、Pperiunitul 文 档 等 。 另 外 ， 别 忘 了 查阅 你 正在 使 用 的 Unicode 模 块 的 文档 。 


位 于 APztp -mwwsanicode.org 的 Unicode 官 方 站 点 基本 上 涵盖 了 各 种 你 所 感 兴趣 的 有 关 
Unicode 的 内 容 ， 它 也 是 一 个 很 好 的 学 习 起 点 。 


本 书 作 者 之 一 另 车 有 《Effective Perl Programming》 《Addison-Wesley) 一 书 ， 其 中 专门 


有 一 章 内 容 讨论 Unicode 方 面 的 问题 。 (译注 : 该 书 第 二 版 的 中 文 版 已 经 上 市 ， 书 名 为 . 


《Perl 高 效 编程 》。 ) 
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Randal L. Schwartz 

Randal L. Schwartz 已 经 是 软件 行业 历练 了 二 十 多 年 的 老手 了 ， 他 在 软件 设计 、 系 统管 
理 、 系 统 安全 、 技 术 写 作 和 培训 等 方面 拥有 丰富 的 经 验 。Randal 和 参与 编著 的 “ 必 读 ” 
书 逢 有 : 《Programming Perl》 《Learning Perl》 以 及 《Learning Perl onWin32 Systems》 
等 (全 部 由 O'Reilly 出 版 ) ， 另 外 还 著 有 《Effective Perl Programming》 (由 Addison- 
Wesley 出 版 ) 。 (译注 : 该 书 第 二 版 已 由 人 民 邮 电 出 版 社 于 2011 年 发 行 简体 中 文 版 ， 
书 名 为 《Perl 高 效 编程 》。) 他 还 是 《WebTechniqdues》《PerformanceComputing》 

《SysAdmin》 以 及 《Linux Magazine》 等 杂志 的 Perl 专栏 作家 。 


不 仅 如 此 ， 他 还 是 Perl 新 闻 组 的 热心 奉献 者 ， 从 comp.lang.perl.announce 创 建 伊始 就 负 
责 协 助 管理 大 小 事务 。 他 以 风趣 的 言谈 和 扎实 的 技术 功底 ， 赢 得 了 圈 内 的 普遍 筑 誉 〈 虽 
然 有 些 传奇 故事 是 他 自己 爆 出 来 的 也 说 不 定 ) 。Randal 总 是 想 着 回报 Perl 社区 赋予 他 的 
一 切 ， 于 是 着 手 参与 著 建 Perl Institute 基金 。 他 还 是 Perl Mogers(perl.org) 董事 会 成 员 ， 
该 机 构 是 全 世界 范围 内 Perl 开发 者 一 致 拥护 的 社团 组 织 。 从 1985 年 起 ，Randal 拥有 了 
自己 运营 的 Stonehenge Consujlting Services 公司 。 可 以 发 送 邮 件 到 merlyn@stonehenge, 
com 和 Randal 聊 聊 有 关 Perl 方面 的 话题 。 


brian qd foy 

brian d foy 是 一 位 多 产 的 Perl 培训 师 和 技术 写 手 ， 他 运作 的 The Perl Review 旨 在 通过 培 
训 救 育 、 技 术 咨 询 、 代 码 审 校 等 方式 ， 帮 助人 们 理解 Perl 的 方方面面 。 他 还 是 Perl 技 术 
大 会 的 常客 ， 他 参与 编著 的 书籍 有 《Learning Perl》《JIntermediate Perl》 以 及 《Effective 
Perl Programming》 (由 Addison-Wesley 出 版 ) ， 而 他 自己 编著 的 有 《Mastering Perl》 。 
他 在 1998 到 2009 年 间 担 任 Stonehenge Consujlting Services 公司 的 讲师 ， 而 在 他 读物 理学 
研究 生 时 就 已 经 是 一 名 Perl 用 户 了 ， 从 拥有 第 一 台 计算 机 开始 便 是 一 名 Mac 死 忠 用户 。 
他 创办 了 第 一 个 Perl 用 户 社 群 ， 即 New York Perl Mongers， 继 而 又 创办 了 非 盈利 性 的 组 
织 Perl Mongers 公司 ， 以 协助 爹 球 超过 200 个 Perl 用 户 社 群 能 够 顺利 发 展 。 他 还 负责 维 
护 核心 Perl 文档 中 的 perlfaq 部 分 以 及 分 享 在 CPAN 上 的 诸多 模块 和 独立 脚本 。 


Tom Phoenijix 

Tom Phoenix 自 1982 年 起 就 开始 投身 教育 事业 。13 年 来 他 在 科学 博物 馆 工 作 时 多 半 与 解 
剖 、 爆 炸 为 伍 ， 摆 形 过 高 压 电 ， 接 触 过 有 趣 的 动物 。1996 年 起 ， 他 开始 了 在 Stonehenge 
Consujting Services 公司 的 Perl 教学 生涯 。 因 为 工作 关系 ， 他 到 处 旅行 ， 所 以 要 是 你 在 


当地 的 Perl Mongers 大 会 上 磁 巧 遇 上 他 也 不 用 太 过 惊奇 。 只 要 间 克 许 ， 他 会 到 Usenet 
的 comp.lang.perl.misc 和 comp.lang.perLmoderated 新 闻 人 可 夭 ， 或 者 对 Perl 的 开发 
工作 积极 进言 。 在 工作 上 他 是 Perl 专 家 、 黑 客 ， 在 生活 -他 也 条 于 投入 时 间 摆 弄 密码 
学 ， 说 说 西班牙 文 。 他 月 前 定居 在 美国 俄勒冈 州 波 特 兰 市 。 


封面 介绍 


《Perl 语 言 入 门 》 第 六 版 的 封面 动物 是 骆 马 (Lama glama) 。 它 是 骆驼 (camel) 
的 同类 ， 原 生 于 安第斯 (Andean) 山脉 附近 。 骆 马 类 族群 里 还 包括 可 允 养 的 羊 驴 
(alpaca) ， 以 及 它 野 生 的 祖先 原 驼 (guanaco) 和 小 羊 驼 (vicuiia) 。 在 远古 人 类 栖息 
地 找到 的 骨骸 显示 羊 驼 和 骆 马 早 在 4 500 年 前 就 被 骨 化 了 。1531 年 ， 当 西班牙 征服 者 超 
过 了 位 于 安 策 斯 高 地 (high Andes) 的 印加 帝国 时 ， 发 现 了 大 群 的 这 两 种 动物 。 骆 马 适 
合 高 山 生 活 ， 它 们 的 血色 素 可 以 携带 比 其 他 哺乳 动物 更 多 的 氧气 。 


驼 马 体重 最 高 重 达 300 磅 ( 约 合 136 千 克 ) ， 通 常 作 为 驮 普 使 用 。 驮 运 货物 的 队伍 可 
能 由 数 百 只 动物 组 成 ， 每 天 最 多 可 以 前 进 20 英 里 〔 约 合 32 千 米 ) 。 骆 马 可 以 驮 背 50 磁 
( 约 合 23 千克 ) 以 内 的 重 物 ， 但 是 脾气 通常 不 好 ， 而 且 会 以 吐 口水 和 咬 人 来 表达 不 
满 。 对 安第斯 的 居民 来 说 ， 骆 马 也 是 食用 肉 、 织 毛 、 兽 皮 及 燃油 的 来 源 。 它 们 的 毛 能 编 
成 绳子 和 毛 千 ， 干 燥 后 的 美 便 则 可 以 作为 灼 料 使 用 。 


